빅데이터 하둡 프로그래밍 교육과정 ]Version 1의 문제

행복한짱짱이 2017. 2. 10. 19:58

2017. 2. 10. 19:58

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

Version 1의 문제

■ 실행해보면 아마도 Heap memory 에러와 같은 것을 볼 수 있을 것이다.

■ 이유는 특정 단어의 경우 한 문서에도 여러번 나오는등 빈도수가 아주 큰데 지금의 구현은 한 문서에 어떤 단어가 여러번 나올 경우 그수만큼 반복하기 때문이다.

■해결책

- JVM의 메모리 증가. 디폴트로 태스크마다 할당되는 JVM은 200M의 메모리를 사용. mapred-site.xml의 mapred.child.java.opts 파라미터을 이용해 증가 (아래예는 1GB로 증가).

<property>

<name>mapred.child.java.opts</name>

<value>-Xmx1024m</value>

</property>

- Mapper단에서 HashSet을 구현하여 같은 단어들이 여러번 나오더라도 한번만 emit하던지 아니면 빈도수를 문서 ID와 함께 내보낸다.

빅데이터 하둡 프로그래밍 교육과정 ] Version 2 – map (0)	2017.02.13
빅데이터 하둡 프로그래밍 교육과정 ] Version 2 (0)	2017.02.13
빅데이터 하둡 프로그래밍 교육과정 ]Version 1 - reduce (0)	2017.02.10
빅데이터 하둡 프로그래밍 교육과정 ]Version 1 (0)	2017.02.10
빅데이터 하둡 프로그래밍 교육과정 ]Inverted index v1, v2 and v3 개요 (0)	2017.02.10

it개발자스터디공간