빅데이터공부하기 59_4 INVERTED INDEX V3

행복한짱짱이 2014. 12. 10. 17:35

2014. 12. 10. 17:35

INVERTED INDEX V3

Version3 - Partitioner

Partition시 WordID에서 Word만 보고하도록 구현

Version 3- GroupingComparator

- 같은 리듀서로 모인 키/밸류페어들을 그룹핑할 때 쓰이는 Comparator로 역시 여기서는 Word만 보고 그룹핑이 이뤄져야한다.

Version3- SortingComparator

- 같은 키로 묶인 밸류들을 소팅할때 쓰이는 Comparator로 여기서는 DocID를 보고 소팅해야한다. 여기서는 그냥 WordID의 Comparator에게 비교를 맡긴다.

Version3의 문제

- 이 방식은 MapReduce 프레임웍의 힘을 이용해서 문제를 해결하기에 메모리에러등의 가능성은 적지만 대신 네트웍 통신양은 Version 2에 비해 크다.

- 하둡의 병목중의 하나는 바로 네트웍

* Map출력물의 압축이 반드시 필요

it개발자스터디공간