빅데이터 하둡 프로그래밍 교육과정 ]Mapper의 출력 버퍼링
빅데이터 하둡 프로그래밍 교육과정 ]Mapper의 출력 버퍼링
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
Mapper의 출력 버퍼링
■ Mapper의 출력은 메모리로 버퍼링됨 (Circular buffer)
- 버퍼 크기는 io.sort.mb라는 파라미터로 결정. 디폴트크기는 100MB.
■ 출력 레코드마다 세가지의 정보를 저장
- 파티션 번호, 키, 밸류
■ 버퍼는 io.sort.spill.percent로 지정된 퍼센트만큼 차면 디스크로 플러시(이를 spill이람 부름)
- 이는 매번 별도의 파일로 써지며 io.sort.factor로 지정된 수까지 별개의 파일이 존재가능.
- 파일 수가 io.sort.factor를 넘어가는 순간 디스크기반 merging sorting을 한다 (파티션기준)
- Combiner가 설정되어 있다면 매번 적용된다 (spill시 그리고 merge시)
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ]WritableComparator (0) | 2017.01.31 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ]Reducer단의 준비작업 (0) | 2017.01.31 |
빅데이터 하둡 프로그래밍 교육과정 ]Mapper출력을 어느 Reducer로? (0) | 2017.01.31 |
빅데이터 하둡 프로그래밍 교육과정 ]Local Reducer (0) | 2017.01.31 |
빅데이터 하둡 프로그래밍 교육과정 ]주요 WritableComparable 타입들 (0) | 2017.01.31 |