이번 빅데이터공부하기의 주제는 Reducer단의 준비작업입니다. ^^
오늘도 열공!!><
Reducer 단의 준비작업
Mapper 단의 파티션 데이터는 HTTP를 통해 해당 reducer가 읽어간다(이를 shuffle이라 부름)
- mapper와 reducer의 수가 크면 네트웍 bandwidth가 병목이 됨
Reducer는 여러 mapper에서 읽어간 데이터들을 키로 소팅하면서 같은 키를 갖는 밸류들끼리는 묶는다(sorting)
- SortComparator, GroupingComparator가 이 작업을 수행
SortComparator는 한 reducer로 모인 레코드들을 키를 바탕으로 정렬하는 역할을 하고 GroupingComparator는 어떤 레코드들을 같은 키 밑으로 묶을지 정한다.
Job클래스의 setFropingComparatorClass와 setSortComparatorClass로 커스텀 클래스로 교체가능
- 이 두 클래스를 이용하면 밸류 리스트는 원하는 방식으로 정렬가능 -> "Secondary Sorting"
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 47 Reducer 클래스의 메소드들 (0) | 2014.09.24 |
---|---|
빅데이터공부하기 46-4 WritableComparator (0) | 2014.09.22 |
빅데이터공부하기 46-2 Mapper의 출력버퍼링 (0) | 2014.09.18 |
빅데이터공부하기 46-1 Local Reducer (0) | 2014.09.17 |
빅데이터공부하기 46 Local Reducer (0) | 2014.09.17 |