빅데이터 하둡 프로그래밍 교육과정 ]Streaming 소개 (2)
빅데이터 하둡 프로그래밍 교육과정 ]Streaming 소개 (2)
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
Streaming 소개 (2)
■ Reducer의 경우 입력키에 대해 같은 값을 갖는 밸류리스트가 한라인으로 한번에 넘어오는 것이 아니라 Flatten되어 개별 쌍이 넘어옴
- reduce (k, [v1, v2, v3])이 아니라 “reduce(k1, v1), reduce (k1,v2), reduce (k1, v3)”의 형태가 됨.
- 처리루틴에서 알아서 그룹핑해야함.
■ 단순 셀유틸리티들로 Streaming을 쉽게 테스트가능
- cat 입력파일 | your_mapper_script | sort | your_reducer_script
■ 카운터의 경우는 stderr로 특별히 포맷된 문자를 출력하면 가능.
- Python에서의 예: sys.stderr.write("reporter:counter:그룹이름,카운터이름,카운터증가수\n")
■ 자바에서 쓸 수 있는 거의 모든 기능들이 Streaming에서도 가능
- Combiner, Partitioner, IdentityReducer 등등
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ]reduce.pl. (0) | 2017.03.31 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ]map.pl (0) | 2017.03.30 |
빅데이터 하둡 프로그래밍 교육과정 ]Streaming 소개 (1) (0) | 2017.03.30 |
빅데이터 하둡 프로그래밍 교육과정 ]자바이외의 MapReduce 하이레벨 프로그래밍 (0) | 2017.03.30 |
빅데이터 하둡 프로그래밍 교육과정 ]자바이외의 MapReduce Streaming & Pipe (0) | 2017.03.30 |