빅데이터 하둡 프로그래밍 교육과정 ]Reducer단의 준비작업

행복한짱짱이 2017. 1. 31. 20:01

2017. 1. 31. 20:01

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

Reducer단의 준비작업

■ Mapper단의 파티션 데이터는 HTTP를 통해 해당 reducer가 읽어간다 (이를 shuffle이라 부름).

- mapper와 reducer의 수가 크면 네트웍 bandwidth가 병목이 됨.

■ Reducer는 여러 mapper에서 읽어간 데이터들을 키로 소팅하면서 같은 키를 갖는 밸류들끼리는 묶는다 (sorting)

- SortComparator, GroupingComparator가 이 작업을 수행

* SortComparator는 한 reducer로 모인 레코드들을 키를 바탕으로 정렬하는 역할을 하고 GroupingComparator는 어떤 레코드들을 같은 키 밑으로 묶을지 정한다.

* Job클래스의 setGroupingComparatorClass와 setSortComparatorClass로 커스텀 클래스로 교체가능.

- 이 두 클래스를 이용하면 밸류 리스트는 원하는 방식으로 정렬가능 -> “Secondary Sorting”

빅데이터 하둡 프로그래밍 교육과정 ]Reducer 클래스의 메소드들 (0)	2017.02.01
빅데이터 하둡 프로그래밍 교육과정 ]WritableComparator (0)	2017.01.31
빅데이터 하둡 프로그래밍 교육과정 ]Mapper의 출력 버퍼링 (0)	2017.01.31
빅데이터 하둡 프로그래밍 교육과정 ]Mapper출력을 어느 Reducer로? (0)	2017.01.31
빅데이터 하둡 프로그래밍 교육과정 ]Local Reducer (0)	2017.01.31

it개발자스터디공간