빅데이터 하둡 프로그래밍 교육과정 ]Version 1의 문제
빅데이터 하둡 프로그래밍 교육과정 ]Version 1의 문제
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
Version 1의 문제
■ 실행해보면 아마도 Heap memory 에러와 같은 것을 볼 수 있을 것이다.
■ 이유는 특정 단어의 경우 한 문서에도 여러번 나오는등 빈도수가 아주 큰데 지금의 구현은 한 문서에 어떤 단어가 여러번 나올 경우 그수만큼 반복하기 때문이다.
■해결책
- JVM의 메모리 증가. 디폴트로 태스크마다 할당되는 JVM은 200M의 메모리를 사용. mapred-site.xml의 mapred.child.java.opts 파라미터을 이용해 증가 (아래예는 1GB로 증가).
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx1024m</value>
</property>
- Mapper단에서 HashSet을 구현하여 같은 단어들이 여러번 나오더라도 한번만 emit하던지 아니면 빈도수를 문서 ID와 함께 내보낸다.
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ] Version 2 – map (0) | 2017.02.13 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ] Version 2 (0) | 2017.02.13 |
빅데이터 하둡 프로그래밍 교육과정 ]Version 1 - reduce (0) | 2017.02.10 |
빅데이터 하둡 프로그래밍 교육과정 ]Version 1 (0) | 2017.02.10 |
빅데이터 하둡 프로그래밍 교육과정 ]Inverted index v1, v2 and v3 개요 (0) | 2017.02.10 |