빅데이터 하둡 프로그래밍 교육과정 ]Streaming 소개 (2)




빅데이터 하둡 프로그래밍 교육과정 ]Streaming 소개 (2)

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.



Streaming 소개 (2)


■ Reducer의 경우 입력키에 대해 같은 값을 갖는 밸류리스트가 한라인으로 한번에 넘어오는 것이 아니라 Flatten되어 개별 쌍이 넘어옴 

  - reduce (k, [v1, v2, v3])이 아니라 “reduce(k1, v1), reduce (k1,v2), reduce (k1, v3)”의 형태가 됨.

  - 처리루틴에서 알아서 그룹핑해야함. 



■ 단순 셀유틸리티들로 Streaming을 쉽게 테스트가능

  - cat 입력파일 | your_mapper_script | sort | your_reducer_script



■ 카운터의 경우는 stderr로 특별히 포맷된 문자를 출력하면 가능.

- Python에서의 예: sys.stderr.write("reporter:counter:그룹이름,카운터이름,카운터증가수\n")



■ 자바에서 쓸 수 있는 거의 모든 기능들이 Streaming에서도 가능

   - Combiner, Partitioner, IdentityReducer 등등 



+ Recent posts