빅데이터 하둡 프로그래밍 교육과정 ]사용전략




빅데이터 하둡 프로그래밍 교육과정 ]사용전략

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


사용전략


■ 어느 파일을 Distributed Cache로 사용할 것인가?

  - CountCitation의 실행후 나온 결과에 TopN을 돌려서 나온 결과를 distributed cache로 사용. N이 작다면 이 파일의 크기는 작다.

  - TopN의 결과 파일이 이미 HDFS에 있으므로 이를 그대로 사용한다.


■프로그램의 인자로 이 distributed cache 파일의 HDFS상의 위치를 넘긴다. 


■Main 함수에서 이 위치를 단순히 Distributed Cache로 등록한다.


■Mapper 실행시 setup 메소드에서 이 위치를 참조(이번에는 로컬파일시스템의 위치)하여 이 파일을 오픈한다


■앞서 이야기했듯이 이 파일은 task의 실행 전에 HDFS에서 로컬 파일 시스템으로 복사되기 때문에 그냥 로컬 텍스트 파일을 읽는 코드를 작성하여 ID를 키로 하여 해쉬맵에 빈도수를 값으로 저장한다. 


■ Mapper의 map 메소드에서 읽혀지는 Title, ID 쌍에 대해 ID가 앞서 setup에서 만들어진  해쉬맵에 존재하는지 확인

  - 존재하면  키를 타이틀로 하고 밸류는 DocID + “\t” + 빈도수로 해서 Reducer로 내보낸다.


■ 이 경우 Reducer는 딱히 할일이 없기 때문에 Identity Reducer를 지정한다. 



+ Recent posts