INVERTED INDEX V3
Version3 - Partitioner
Partition시 WordID에서 Word만 보고하도록 구현
Version 3- GroupingComparator
- 같은 리듀서로 모인 키/밸류페어들을 그룹핑할 때 쓰이는 Comparator로 역시 여기서는 Word만 보고 그룹핑이 이뤄져야한다.
Version3- SortingComparator
- 같은 키로 묶인 밸류들을 소팅할때 쓰이는 Comparator로 여기서는 DocID를 보고 소팅해야한다. 여기서는 그냥 WordID의 Comparator에게 비교를 맡긴다.
Version3의 문제
- 이 방식은 MapReduce 프레임웍의 힘을 이용해서 문제를 해결하기에 메모리에러등의 가능성은 적지만 대신 네트웍 통신양은 Version 2에 비해 크다.
- 하둡의 병목중의 하나는 바로 네트웍
* Map출력물의 압축이 반드시 필요
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 61. map.py / reduce.py (0) | 2015.06.24 |
---|---|
빅데이터공부하기 60. 스트리밍소개 (0) | 2015.06.24 |
빅데이터공부하기 59_3 INVERTED INDEX V3 (0) | 2014.12.08 |
빅데이터공부하기 59_2 INVERTED INDEX V2 (0) | 2014.12.08 |
빅데이터공부하기 59_1 INVERTED INDEX V1 (0) | 2014.12.03 |