빅데이터 하둡 프로그래밍 교육과정 ]Join ID & Title 개요




빅데이터 하둡 프로그래밍 교육과정 ]Join ID & Title 개요

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


Join ID & Title 개요


■ 앞서 Count Citation 처럼 결과가 ID가 나오는 경우 무슨 내용인지 궁금.



■ 2M.TITLE.ID

  - ID별로 해당 문서의 타이틀을 보여주는 데이터 파일.

  - 이 파일과 Count Citation(과 TopN)의 결과 파일을 ID로 조인하면 타이틀을 알아낼 수 있음. 



■ 조인 전략

  - 여기서는 2개의 입력파일셋을 각기 mapper로 로드하여 조인을 reducer에서 수행. 

  - 사실 TopN의 결과로 나온 10개의 ID에 대해서만 조인을 하자면 Distributed Cache라는 것을 사용하면 훨씬 효율적이다. 이에 대해서는 Advanced MapReduce 프로그래밍 세션에서 다뤄보겠다.



+ Recent posts