word count v2 2번째 글입니다.

 

Combiner의 동작확인

 

Job의 출력에서 Map-Reduce Framework 카운터들중에 다음 2개를 확인

_ Combine Input Records

- Combine Output Records

 

둘을 비교해보면 Combine Output Records의 값이 훨씬 작다.

- Combine Input Records의 경우 Mapper의 Output Records인 셈인데 Mapper의 Output Records보다 그 값이 큰데 그 이유는 Combiner는 Mapper Output이 merqu될 때마다 지속적으로 적용되기 때문이다.

 

12/08/06 12:31:37 INFO mapred.JobClient: Map output records=417,783,208

12/08/06 12:31:37 INFO mapred.JobClient: Combine input records=460,692,608

12/08/06 12:31:37 INFO mapred JobClient: Combine output records=53,872,927

 

 

카운터 사용

 

- 예를 들어 유일한 단어수를 카운트하고 싶다면 reduce 메소드에서 context.write다음에 다음 코드를 삽입

* context.getCounter("Wrods Stats", "Unique words").increment(1);

 

- JobTracker나 콘솔 출력에서 카운터의 수를 확인가능

 

 

 

+ Recent posts