빅데이터 하둡 프로그래밍 교육과정 ]Mapper의 출력 버퍼링




빅데이터 하둡 프로그래밍 교육과정 ]Mapper의 출력 버퍼링

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


Mapper의 출력 버퍼링


■ Mapper의 출력은 메모리로 버퍼링됨 (Circular buffer)

  - 버퍼 크기는 io.sort.mb라는 파라미터로 결정. 디폴트크기는 100MB.


■ 출력 레코드마다 세가지의 정보를 저장

  - 파티션 번호, 키, 밸류


■ 버퍼는 io.sort.spill.percent로 지정된 퍼센트만큼 차면 디스크로 플러시(이를 spill이람 부름)

  - 이는 매번 별도의 파일로 써지며 io.sort.factor로 지정된 수까지 별개의 파일이 존재가능.

  - 파일 수가 io.sort.factor를 넘어가는 순간 디스크기반 merging sorting을 한다 (파티션기준)

  - Combiner가 설정되어 있다면 매번 적용된다 (spill시 그리고 merge시)


+ Recent posts