JOIN ID AND TITLE V2
main 함수
- org.apache.hadoop.filecache.Distributed Cache를 임포트 한다.
- doclDFreq로 HDFS상의 Top Citation파일의 위치를 저장한 다음에 (main 함수의 실행인자로 받아들이게 구현) 다음함수를 호출해서 DistributedCache에 등록
(이 함수는 여러번 호출되어도 무방)
* DistributedCache.addCacheFile(new URI(doclDFreq), conf);
MyMapper.setup(1)
- Mapper의 setup메소드에서는 다음 함수를 호출하여 distributed cache로 등록된 파일들의 위치정보를 받는다(이젠 모두 로컬파일시스템의 path!)
localFiles=DistributedCache.qetLocalCacheFiles(context.getConfiguration());
- 이때 리턴되는 값은 Path의 배열인데 이 경우 우린 첫번째 원소만 필요하다. 그걸 String으로 바꿔서 Java의 File I/O stream을 이용해 한줄씩 읽어서 해쉬맵에 저장
다음글에서 계속 공부할께요 ^-^
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 59_2 INVERTED INDEX V2 (0) | 2014.12.08 |
---|---|
빅데이터공부하기 59_1 INVERTED INDEX V1 (0) | 2014.12.03 |
빅데이터공부하기 58_ JOIN ID AND TITLE V2 (0) | 2014.11.26 |
빅데이터공부하기57_SORT STRING (0) | 2014.11.26 |
빅데이터공부하기 56_ MyReducer.reduce (0) | 2014.11.24 |