word count v2 2번째 글입니다.
Combiner의 동작확인
Job의 출력에서 Map-Reduce Framework 카운터들중에 다음 2개를 확인
_ Combine Input Records
- Combine Output Records
둘을 비교해보면 Combine Output Records의 값이 훨씬 작다.
- Combine Input Records의 경우 Mapper의 Output Records인 셈인데 Mapper의 Output Records보다 그 값이 큰데 그 이유는 Combiner는 Mapper Output이 merqu될 때마다 지속적으로 적용되기 때문이다.
12/08/06 12:31:37 INFO mapred.JobClient: Map output records=417,783,208
12/08/06 12:31:37 INFO mapred.JobClient: Combine input records=460,692,608
12/08/06 12:31:37 INFO mapred JobClient: Combine output records=53,872,927
카운터 사용
- 예를 들어 유일한 단어수를 카운트하고 싶다면 reduce 메소드에서 context.write다음에 다음 코드를 삽입
* context.getCounter("Wrods Stats", "Unique words").increment(1);
- JobTracker나 콘솔 출력에서 카운터의 수를 확인가능
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 54_2 Top N (0) | 2014.11.05 |
---|---|
빅데이터공부하기 54_1 Top N (0) | 2014.11.04 |
빅데이터공부하기 53 word count v2 (0) | 2014.11.03 |
빅데이터공부하기 52_1 위키피디아 데이터 다운로드 (0) | 2014.11.03 |
빅데이터공부하기 52 위키파디아 _데이터준비 (0) | 2014.10.31 |