빅데이터 하둡 프로그래밍 교육과정 ]Version 3




빅데이터 하둡 프로그래밍 교육과정 ]Version 3

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


Version 3


■ 여기서 시도할 방식은 흔히 Secondary Sorting이라는 것이다.



■ 보통 reduce로 넘어오는 밸류 리스트는 특별한 순서가 없이 랜덤하다. 앞에서 보았던 SortingComparator를 보면 키값 비교를 위해 단순히 키만 비교하기 때문.



■ 만일 밸류리스트에 순서를 줄 수 있다면 이 문제를 reducer단에서 해결가능!

  - 즉 같은 단어를 갖는 DocID의 리스트를 소팅된 상태로 받을 수 있다면 간단하게 같은 DocID에서 넘어온 단어들을 한번만 출력 가능 


  - 또한 Inverted index의 문서 리스트가 ID로 소팅이 되기 때문에 다른 연산 (AND 연산등)이 간단해진다. 



+ Recent posts