빅데이터공부하기 62번째글 중에서 3번째시간이네요 ^^

 

이번글은 Mapper의 출력 버퍼링에 대해서 공부하도록하겠습니다.

Mapper의 출력 버퍼링

 

Mapper의 출력은 메모리로 버퍼링됨 (Circular buffer)

- 버퍼 크기는 io.sort.mb라는 파라미터로 결정. 디폴트크기는 100MB.

 

출력 레코드마다 세가지의 정보를 저장

- 파티션 보호, 키, 밸류

 

버퍼는 io.sort.spill.percent로 지정된 퍼센트만큼 차면 디스크로 플러시(이를 spill이라 부름)

- 이는 매번 별도의 파일로 써지며 io.sort.factor로 지정된 수까지 별개의 파일이 존재가능

 

- 파일 수가 io.sort.factor를 넘어가는 순간 디스크기반 merging sorting을 한다(파티션기준)

 

- Combiner가 설정되어 있다면 매번 적용된다.(spill시 그리고 merge시)

 

 

빅데이터공부하기 46-2 Mapper의 출력버퍼링

 

 

+ Recent posts