빅데이터 하둡 프로그래밍 교육과정 ]Streaming 소개 (1)




빅데이터 하둡 프로그래밍 교육과정 ]Streaming 소개 (1)

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


Streaming 소개 (1)


■하둡은 자바이외의 언어로 MapReduce 프로그램을 작성가능하게 해주는 API 제공.

  - 하둡패키지의 일부로 제공되는 contrib/streaming/hadoop-streaming-1.0.3.jar을 사용



■ Mapper task 혹은 reducer task는 mapper 혹은 reducer 스크립트를 자식프로세스로 실행하고 표준입출력을 통해 통신을 수행. 



■텍스트 프로세싱에 적합. 

  - 텍스트 라인 하나가 결국 하나의 입력 레코드로 취급됨. 이것의 해석은 mapper에 달림.

  - Mapper의 출력이나 Reducer의 입출력은 모두 tab을 키와 밸류간의 delimiter로 사용. tab 이외의 문자도 사용가능 (configurable)

  - 이는 내부적으로 디폴트로 자바의 TextInputFormat과 TextOutputFormat을 사용하기 때문.



+ Recent posts