빅데이터 하둡 프로그래밍 교육과정 ]Version 3
빅데이터 하둡 프로그래밍 교육과정 ]Version 3
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
Version 3
■ 여기서 시도할 방식은 흔히 Secondary Sorting이라는 것이다.
■ 보통 reduce로 넘어오는 밸류 리스트는 특별한 순서가 없이 랜덤하다. 앞에서 보았던 SortingComparator를 보면 키값 비교를 위해 단순히 키만 비교하기 때문.
■ 만일 밸류리스트에 순서를 줄 수 있다면 이 문제를 reducer단에서 해결가능!
- 즉 같은 단어를 갖는 DocID의 리스트를 소팅된 상태로 받을 수 있다면 간단하게 같은 DocID에서 넘어온 단어들을 한번만 출력 가능
- 또한 Inverted index의 문서 리스트가 ID로 소팅이 되기 때문에 다른 연산 (AND 연산등)이 간단해진다.
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ]Version 3 - main (0) | 2017.02.14 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ]Version 3 - 새타입사용 (0) | 2017.02.13 |
빅데이터 하둡 프로그래밍 교육과정 ]VersVersion 2의 문제 (0) | 2017.02.13 |
빅데이터 하둡 프로그래밍 교육과정 ] Version 2 – map (0) | 2017.02.13 |
빅데이터 하둡 프로그래밍 교육과정 ] Version 2 (0) | 2017.02.13 |