개요
앞서 Count Citation 처럼 결과가 ID가 나오는 경우 무슨 내용인지 궁금.
2M.TITLE.ID
- ID별로 해당문서의 타이틀을 보여주는 데이터파일.
- 이 파일과 CountCitation과 TopN의 결과 파일을 ID로 조인하면 타이틀을 알아낼 수 있음
조인전략
- 여기서는 2개의 입력파일셋을 각기 mapper로 로드하여 조인을 reducer에서 수행
- 사실 TopN의 결과로 나온 10개의 ID에 대해서만 조인을 하자면 Distributed Cache라는 것을 사용하면 훨씬 효율적이다. 이에 대해서는 Advanced MapReduce프로그래밍 세션에서 다뤄보겠습니다.
MultipleInputs의 사용
MutipleInputs.addInputPath(pass, new Path(titleDocID), KeyValueTextInputFormat.class, MyMapper1.class);
- titleDicID에 있는 파일들을 읽을때는 MyMapper1.map을 mapper로 사용하면서 입력포맷으로는 KeyValueTextInputFormat을 사용하세요.
MutipleInputs.addInputPath(pass, new Path(doclDFreq), KeyValueTextInputFormat.class, MyMapper2.class);
- docIdFreq에 있는 파일들을 읽을때는 MyMapper2.map을 mapper로 사용하면서 입력포맷으로는 KeyValueTextInputFormat을 사용하세요.
이 경우 Job클래스의 setMapperClass는 호출이 불필요.
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 56_ MyReducer.reduce (0) | 2014.11.24 |
---|---|
빅데이터공부하기 56_1 MyMapper.map (0) | 2014.11.21 |
빅데이터공부하기 55_ COUNT CITATION (0) | 2014.11.19 |
빅데이터공부하기 54_ COUNT TRIGRAM (0) | 2014.11.17 |
빅데이터공부하기 53-3 소스코드 (0) | 2014.11.10 |