빅데이터 하둡 프로그래밍 교육과정 ]Version 3

행복한짱짱이 2017. 2. 13. 20:01

2017. 2. 13. 20:01

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

Version 3

■ 여기서 시도할 방식은 흔히 Secondary Sorting이라는 것이다.

■ 보통 reduce로 넘어오는 밸류 리스트는 특별한 순서가 없이 랜덤하다. 앞에서 보았던 SortingComparator를 보면 키값 비교를 위해 단순히 키만 비교하기 때문.

■ 만일 밸류리스트에 순서를 줄 수 있다면 이 문제를 reducer단에서 해결가능!

- 즉 같은 단어를 갖는 DocID의 리스트를 소팅된 상태로 받을 수 있다면 간단하게 같은 DocID에서 넘어온 단어들을 한번만 출력 가능

- 또한 Inverted index의 문서 리스트가 ID로 소팅이 되기 때문에 다른 연산 (AND 연산등)이 간단해진다.

빅데이터 하둡 프로그래밍 교육과정 ]Version 3 - main (0)	2017.02.14
빅데이터 하둡 프로그래밍 교육과정 ]Version 3 - 새타입사용 (0)	2017.02.13
빅데이터 하둡 프로그래밍 교육과정 ]VersVersion 2의 문제 (0)	2017.02.13
빅데이터 하둡 프로그래밍 교육과정 ] Version 2 – map (0)	2017.02.13
빅데이터 하둡 프로그래밍 교육과정 ] Version 2 (0)	2017.02.13

it개발자스터디공간