빅데이터공부하기 53번째 글입니다.

이번글은 word count v2에 대해서 공부하겠습니다.

 

개요.

 

- 2M 영문 위키피디아 페이지(2M.ID.CONTENTS)들에 있는 단어들의 수를 빈도수를 계산

- 앞서 본 WordCount와 크게 안 다름. 몇 가지 차이점

- 입력파일의 형태가 다름. ID/tContent.ID는 그냥 무시.

- KeyValueTextInputFormat을 입력포맷으로 사용.

- Combiner를 사용 (Reducer를 그대로 적용)

* Combiner는 mapper 출력에 적용되는 로컬 reducer! 교환법칙과 결합법칙 성립 오퍼레이션에만 적용가능

- 카운터 사용

 

코드

 

- main 함수에서의 변경

- job.setCombinerClass(Reduce.class);

- job.setinputFormatClass(KeyValueTextInputFormat.class);

 

- Map 클래스의 변경

public static class Map extends Mapper<Text, Text, Text, LongWritable>

{

....

 

public void map(Text key, Text value, Context context)throws IOException, InterruptedException {

 

 

+ Recent posts