빅데이터 하둡 프로그래밍 교육과정 ]Join ID & Title 개요

행복한짱짱이 2017. 2. 7. 20:11

2017. 2. 7. 20:11

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

Join ID & Title 개요

■ 앞서 Count Citation 처럼 결과가 ID가 나오는 경우 무슨 내용인지 궁금.

■ 2M.TITLE.ID

- ID별로 해당 문서의 타이틀을 보여주는 데이터 파일.

- 이 파일과 Count Citation(과 TopN)의 결과 파일을 ID로 조인하면 타이틀을 알아낼 수 있음.

■ 조인 전략

- 여기서는 2개의 입력파일셋을 각기 mapper로 로드하여 조인을 reducer에서 수행.

- 사실 TopN의 결과로 나온 10개의 ID에 대해서만 조인을 하자면 Distributed Cache라는 것을 사용하면 훨씬 효율적이다. 이에 대해서는 Advanced MapReduce 프로그래밍 세션에서 다뤄보겠다.

빅데이터 하둡 프로그래밍 교육과정 ]MyMapper1.map (0)	2017.02.07
빅데이터 하둡 프로그래밍 교육과정 ]MultipleInputs의 사용 (0)	2017.02.07
빅데이터 하둡 프로그래밍 교육과정 ]Map ,Reduce 코드 & 실행결과 (0)	2017.02.07
빅데이터 하둡 프로그래밍 교육과정 ]개요 (0)	2017.02.07
빅데이터 하둡 프로그래밍 교육과정 ]실행결과 (0)	2017.02.06

it개발자스터디공간