빅데이터 하둡 프로그래밍 교육과정 ]Join ID & Title 개요
빅데이터 하둡 프로그래밍 교육과정 ]Join ID & Title 개요
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
Join ID & Title 개요
■ 앞서 Count Citation 처럼 결과가 ID가 나오는 경우 무슨 내용인지 궁금.
■ 2M.TITLE.ID
- ID별로 해당 문서의 타이틀을 보여주는 데이터 파일.
- 이 파일과 Count Citation(과 TopN)의 결과 파일을 ID로 조인하면 타이틀을 알아낼 수 있음.
■ 조인 전략
- 여기서는 2개의 입력파일셋을 각기 mapper로 로드하여 조인을 reducer에서 수행.
- 사실 TopN의 결과로 나온 10개의 ID에 대해서만 조인을 하자면 Distributed Cache라는 것을 사용하면 훨씬 효율적이다. 이에 대해서는 Advanced MapReduce 프로그래밍 세션에서 다뤄보겠다.
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ]MyMapper1.map (0) | 2017.02.07 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ]MultipleInputs의 사용 (0) | 2017.02.07 |
빅데이터 하둡 프로그래밍 교육과정 ]Map ,Reduce 코드 & 실행결과 (0) | 2017.02.07 |
빅데이터 하둡 프로그래밍 교육과정 ]개요 (0) | 2017.02.07 |
빅데이터 하둡 프로그래밍 교육과정 ]실행결과 (0) | 2017.02.06 |