빅데이터공부하기 53번째 글입니다.
이번글은 word count v2에 대해서 공부하겠습니다.
개요.
- 2M 영문 위키피디아 페이지(2M.ID.CONTENTS)들에 있는 단어들의 수를 빈도수를 계산
- 앞서 본 WordCount와 크게 안 다름. 몇 가지 차이점
- 입력파일의 형태가 다름. ID/tContent.ID는 그냥 무시.
- KeyValueTextInputFormat을 입력포맷으로 사용.
- Combiner를 사용 (Reducer를 그대로 적용)
* Combiner는 mapper 출력에 적용되는 로컬 reducer! 교환법칙과 결합법칙 성립 오퍼레이션에만 적용가능
- 카운터 사용
코드
- main 함수에서의 변경
- job.setCombinerClass(Reduce.class);
- job.setinputFormatClass(KeyValueTextInputFormat.class);
- Map 클래스의 변경
public static class Map extends Mapper<Text, Text, Text, LongWritable>
{
....
public void map(Text key, Text value, Context context)throws IOException, InterruptedException {
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 54_1 Top N (0) | 2014.11.04 |
---|---|
빅데이터공부하기 53_1 word count v2 (0) | 2014.11.04 |
빅데이터공부하기 52_1 위키피디아 데이터 다운로드 (0) | 2014.11.03 |
빅데이터공부하기 52 위키파디아 _데이터준비 (0) | 2014.10.31 |
빅데이터공부하기 51_4 MRUnit / WordCountTest.java (0) | 2014.10.29 |