COUNT CITATION
개요
- 앞서본 2M.SPCID.DSTID를 바탕으로 가장 많이 레퍼런스된 위키피디아 페이지의 분서 번호가 뭔지 알아낸다.
- 기본적으로 word count와 흡사
* Map으로 들어오는 (srclD, dstID)pair를 (dstID, 1)pair로 바꿔서 넘기고 Reduce에서 단순히 dstID로 들어온 value단의 값을 합한다.
* 작업의 특성상 combiner의 적용이 가능.
Map 코드
public static class Map extends Mapper<Text, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
public void map(Text key, Text value, Context context)throws IOException, InterruptedException {
context.write(value, one);
}
}
Reduce 코드
public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable>{
public void reduce(Text key, lterable<IntWritable>values, Context context)
throws IOEception, interruptedException{
int sum=0;
fot (IntWritable val : values)
sum +=val.get();
context.write(key,new intWritable(sum));
}
}
실행결과
앞서 결과에 TopN Job을 실행하여 추출된 top 10 DoclD
18951490 9536
38523 10900
5405 12187
9239 12545
3383 13632
5407 15945
15573 21453
14532 23075
14533 24610
9316 34884
빅데이터공부하기는 it개발자스터디공간을 이용해주세요 ^^
학원을 알아보신다면 --> www.oraclejava.co.kr
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 56_1 MyMapper.map (0) | 2014.11.21 |
---|---|
빅데이터공부하기 56_ JOIN ID & TITLE (0) | 2014.11.20 |
빅데이터공부하기 54_ COUNT TRIGRAM (0) | 2014.11.17 |
빅데이터공부하기 53-3 소스코드 (0) | 2014.11.10 |
빅데이터공부하기 54_2 Top N (0) | 2014.11.05 |