빅데이터 하둡 프로그래밍 교육과정 ]Version 1의 문제





빅데이터 하둡 프로그래밍 교육과정 ]Version 1의 문제

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


Version 1의 문제


■ 실행해보면 아마도 Heap memory 에러와 같은 것을 볼 수 있을 것이다. 


■ 이유는 특정 단어의 경우 한 문서에도 여러번 나오는등 빈도수가 아주 큰데 지금의 구현은 한 문서에 어떤 단어가 여러번 나올 경우 그수만큼 반복하기 때문이다.



■해결책


  - JVM의 메모리 증가. 디폴트로 태스크마다 할당되는 JVM은 200M의 메모리를 사용. mapred-site.xml의 mapred.child.java.opts 파라미터을 이용해 증가 (아래예는 1GB로 증가).


<property>

         <name>mapred.child.java.opts</name>

         <value>-Xmx1024m</value>

 </property>


  - Mapper단에서 HashSet을 구현하여 같은 단어들이 여러번 나오더라도 한번만 emit하던지 아니면 빈도수를 문서 ID와 함께 내보낸다. 



+ Recent posts