빅데이터공부하기 56_ JOIN ID & TITLE

 

개요

 

앞서 Count Citation 처럼 결과가 ID가 나오는 경우 무슨 내용인지 궁금.

 

2M.TITLE.ID

- ID별로 해당문서의 타이틀을 보여주는 데이터파일.

- 이 파일과 CountCitation과 TopN의 결과 파일을 ID로 조인하면 타이틀을 알아낼 수 있음

 

조인전략

- 여기서는 2개의 입력파일셋을 각기 mapper로 로드하여 조인을 reducer에서 수행

- 사실 TopN의 결과로 나온 10개의 ID에 대해서만 조인을 하자면 Distributed Cache라는 것을 사용하면 훨씬 효율적이다. 이에 대해서는 Advanced MapReduce프로그래밍 세션에서 다뤄보겠습니다.

 

MultipleInputs의 사용

 

MutipleInputs.addInputPath(pass, new Path(titleDocID), KeyValueTextInputFormat.class, MyMapper1.class);

- titleDicID에 있는 파일들을 읽을때는 MyMapper1.map을 mapper로 사용하면서 입력포맷으로는 KeyValueTextInputFormat을 사용하세요.

 

MutipleInputs.addInputPath(pass, new Path(doclDFreq), KeyValueTextInputFormat.class, MyMapper2.class);

- docIdFreq에 있는 파일들을 읽을때는 MyMapper2.map을 mapper로 사용하면서 입력포맷으로는 KeyValueTextInputFormat을 사용하세요.

 

이 경우 Job클래스의 setMapperClass는 호출이 불필요.

+ Recent posts