빅데이터 하둡 프로그래밍 교육과정 ]Reducer단의 준비작업




빅데이터 하둡 프로그래밍 교육과정 ]Reducer단의 준비작업

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


Reducer단의 준비작업


■ Mapper단의 파티션 데이터는 HTTP를 통해 해당 reducer가 읽어간다 (이를 shuffle이라 부름).

  - mapper와 reducer의 수가 크면 네트웍 bandwidth가 병목이 됨. 


■ Reducer는 여러 mapper에서 읽어간 데이터들을 키로 소팅하면서 같은 키를 갖는 밸류들끼리는 묶는다 (sorting)

- SortComparator, GroupingComparator가 이 작업을 수행

  * SortComparator는 한 reducer로 모인 레코드들을 키를 바탕으로 정렬하는 역할을 하고 GroupingComparator는 어떤 레코드들을 같은 키 밑으로 묶을지 정한다. 

  * Job클래스의 setGroupingComparatorClass와 setSortComparatorClass로 커스텀 클래스로 교체가능.


- 이 두 클래스를 이용하면 밸류 리스트는 원하는 방식으로 정렬가능 -> “Secondary Sorting”



+ Recent posts