JOIN ID AND TITLE V2

 

main 함수

 

- org.apache.hadoop.filecache.Distributed Cache를 임포트 한다.

 

- doclDFreq로 HDFS상의 Top Citation파일의 위치를 저장한 다음에 (main 함수의 실행인자로 받아들이게 구현) 다음함수를 호출해서 DistributedCache에 등록

(이 함수는 여러번 호출되어도 무방)

* DistributedCache.addCacheFile(new URI(doclDFreq), conf);

 

MyMapper.setup(1)

 

- Mapper의 setup메소드에서는 다음 함수를 호출하여 distributed cache로 등록된 파일들의 위치정보를 받는다(이젠 모두 로컬파일시스템의 path!)

 

localFiles=DistributedCache.qetLocalCacheFiles(context.getConfiguration());

 

- 이때 리턴되는 값은 Path의 배열인데 이 경우 우린 첫번째 원소만 필요하다. 그걸 String으로 바꿔서 Java의 File I/O stream을 이용해 한줄씩 읽어서 해쉬맵에 저장

 

다음글에서 계속 공부할께요 ^-^

 

 

+ Recent posts