빅데이터공부하기 62번째글 중에서 3번째시간이네요 ^^
이번글은 Mapper의 출력 버퍼링에 대해서 공부하도록하겠습니다.
Mapper의 출력 버퍼링
Mapper의 출력은 메모리로 버퍼링됨 (Circular buffer)
- 버퍼 크기는 io.sort.mb라는 파라미터로 결정. 디폴트크기는 100MB.
출력 레코드마다 세가지의 정보를 저장
- 파티션 보호, 키, 밸류
버퍼는 io.sort.spill.percent로 지정된 퍼센트만큼 차면 디스크로 플러시(이를 spill이라 부름)
- 이는 매번 별도의 파일로 써지며 io.sort.factor로 지정된 수까지 별개의 파일이 존재가능
- 파일 수가 io.sort.factor를 넘어가는 순간 디스크기반 merging sorting을 한다(파티션기준)
- Combiner가 설정되어 있다면 매번 적용된다.(spill시 그리고 merge시)
빅데이터공부하기 46-2 Mapper의 출력버퍼링
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 46-4 WritableComparator (0) | 2014.09.22 |
---|---|
빅데이터공부하기 46-3 Reducer단의 준비 (0) | 2014.09.18 |
빅데이터공부하기 46-1 Local Reducer (0) | 2014.09.17 |
빅데이터공부하기 46 Local Reducer (0) | 2014.09.17 |
빅데이터공부하기 45-2 주요 writableComparable타입 (0) | 2014.09.15 |