Version 2
- 앞에서 설명했듯이 이 버전은 Mapper에서 단순무식하게 (word.docID)쌍을 출력하는 것이 아니라 HashSet을 이용한 unique한 (word.docID)쌍을 내보낸다.
- StringTokenizer를 이용해 파싱이 끝나면 루프를 돌면서 단어들을 HashSet에 집어넣은 다음에 HashSet을 iteration하면서 나온 단어들과 해당문서의 docID를 Reducer로 넘긴다.
Version2 -map
Version2의 문제
- 버전 2는 버전1에 비해 Mapper에서 Reducer로 넘어가는 데이터의 크기가 훨씬작음
- 하지만 아주 큰 텍스트를 가진 문서들이 많은 경우 HashSet의 크기가 커져 역시 메모리에러의 가능성 존재
- 다른 방식은 Version 1 처럼 Mapper/Reducer를 구현하고 중간의 Shuffling/Sorting 방법을 바꿔보는 것이다.
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 59_4 INVERTED INDEX V3 (0) | 2014.12.10 |
---|---|
빅데이터공부하기 59_3 INVERTED INDEX V3 (0) | 2014.12.08 |
빅데이터공부하기 59_1 INVERTED INDEX V1 (0) | 2014.12.03 |
빅데이터공부하기 58_1 JOIN ID AND TITLE V2 (0) | 2014.12.02 |
빅데이터공부하기 58_ JOIN ID AND TITLE V2 (0) | 2014.11.26 |