빅데이터 하둡 프로그래밍 교육과정 ]Reducer단의 준비작업
빅데이터 하둡 프로그래밍 교육과정 ]Reducer단의 준비작업
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
Reducer단의 준비작업
■ Mapper단의 파티션 데이터는 HTTP를 통해 해당 reducer가 읽어간다 (이를 shuffle이라 부름).
- mapper와 reducer의 수가 크면 네트웍 bandwidth가 병목이 됨.
■ Reducer는 여러 mapper에서 읽어간 데이터들을 키로 소팅하면서 같은 키를 갖는 밸류들끼리는 묶는다 (sorting)
- SortComparator, GroupingComparator가 이 작업을 수행
* SortComparator는 한 reducer로 모인 레코드들을 키를 바탕으로 정렬하는 역할을 하고 GroupingComparator는 어떤 레코드들을 같은 키 밑으로 묶을지 정한다.
* Job클래스의 setGroupingComparatorClass와 setSortComparatorClass로 커스텀 클래스로 교체가능.
- 이 두 클래스를 이용하면 밸류 리스트는 원하는 방식으로 정렬가능 -> “Secondary Sorting”
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ]Reducer 클래스의 메소드들 (0) | 2017.02.01 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ]WritableComparator (0) | 2017.01.31 |
빅데이터 하둡 프로그래밍 교육과정 ]Mapper의 출력 버퍼링 (0) | 2017.01.31 |
빅데이터 하둡 프로그래밍 교육과정 ]Mapper출력을 어느 Reducer로? (0) | 2017.01.31 |
빅데이터 하둡 프로그래밍 교육과정 ]Local Reducer (0) | 2017.01.31 |