이번 빅데이터공부하기의 주제는 Reducer단의 준비작업입니다. ^^

오늘도 열공!!><

 

 

Reducer 단의 준비작업

 

Mapper 단의 파티션 데이터는 HTTP를 통해 해당 reducer가 읽어간다(이를 shuffle이라 부름)

- mapper와 reducer의 수가 크면 네트웍 bandwidth가 병목이 됨

 

Reducer는 여러 mapper에서 읽어간 데이터들을 키로 소팅하면서 같은 키를 갖는 밸류들끼리는 묶는다(sorting)

- SortComparator, GroupingComparator가 이 작업을 수행

SortComparator는 한 reducer로 모인 레코드들을 키를 바탕으로 정렬하는 역할을 하고 GroupingComparator는 어떤 레코드들을 같은 키 밑으로 묶을지 정한다.

Job클래스의 setFropingComparatorClass와 setSortComparatorClass로 커스텀 클래스로 교체가능

 

- 이 두 클래스를 이용하면 밸류 리스트는 원하는 방식으로 정렬가능 -> "Secondary Sorting"

+ Recent posts