빅데이터 하둡 프로그래밍 교육과정 ]사용전략

행복한짱짱이 2017. 2. 9. 19:48

2017. 2. 9. 19:48

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

사용전략

■ 어느 파일을 Distributed Cache로 사용할 것인가?

- CountCitation의 실행후 나온 결과에 TopN을 돌려서 나온 결과를 distributed cache로 사용. N이 작다면 이 파일의 크기는 작다.

- TopN의 결과 파일이 이미 HDFS에 있으므로 이를 그대로 사용한다.

■프로그램의 인자로 이 distributed cache 파일의 HDFS상의 위치를 넘긴다.

■Main 함수에서 이 위치를 단순히 Distributed Cache로 등록한다.

■Mapper 실행시 setup 메소드에서 이 위치를 참조(이번에는 로컬파일시스템의 위치)하여 이 파일을 오픈한다

■앞서 이야기했듯이 이 파일은 task의 실행 전에 HDFS에서 로컬 파일 시스템으로 복사되기 때문에 그냥 로컬 텍스트 파일을 읽는 코드를 작성하여 ID를 키로 하여 해쉬맵에 빈도수를 값으로 저장한다.

■ Mapper의 map 메소드에서 읽혀지는 Title, ID 쌍에 대해 ID가 앞서 setup에서 만들어진 해쉬맵에 존재하는지 확인

- 존재하면 키를 타이틀로 하고 밸류는 DocID + “\t” + 빈도수로 해서 Reducer로 내보낸다.

■ 이 경우 Reducer는 딱히 할일이 없기 때문에 Identity Reducer를 지정한다.

빅데이터 하둡 프로그래밍 교육과정 ]MyMapper.setup (1) (0)	2017.02.09
빅데이터 하둡 프로그래밍 교육과정 ]main 함수 (0)	2017.02.09
빅데이터 하둡 프로그래밍 교육과정 ]Join ID and Title v2 개요 (0)	2017.02.09
빅데이터 하둡 프로그래밍 교육과정 ]내부동작 (0)	2017.02.09
빅데이터 하둡 프로그래밍 교육과정 ]main 함수 (0)	2017.02.08

it개발자스터디공간