빅데이터/빅데이터Hadoop
빅데이터 하둡 프로그래밍 교육과정 ]Version 1의 문제
행복한짱짱이
2017. 2. 10. 19:58
빅데이터 하둡 프로그래밍 교육과정 ]Version 1의 문제
빅데이터 하둡 프로그래밍 교육과정 ]Version 1의 문제
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
Version 1의 문제
■ 실행해보면 아마도 Heap memory 에러와 같은 것을 볼 수 있을 것이다.
■ 이유는 특정 단어의 경우 한 문서에도 여러번 나오는등 빈도수가 아주 큰데 지금의 구현은 한 문서에 어떤 단어가 여러번 나올 경우 그수만큼 반복하기 때문이다.
■해결책
- JVM의 메모리 증가. 디폴트로 태스크마다 할당되는 JVM은 200M의 메모리를 사용. mapred-site.xml의 mapred.child.java.opts 파라미터을 이용해 증가 (아래예는 1GB로 증가).
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx1024m</value>
</property>
- Mapper단에서 HashSet을 구현하여 같은 단어들이 여러번 나오더라도 한번만 emit하던지 아니면 빈도수를 문서 ID와 함께 내보낸다.