빅데이터공부하기 !!!

WordCount에 대해서 공부할거에요 ^^

37번라인글도 퐈이팅!!

 

 

WordCount 프로그램

 

 가장 기본이 되는 프로그램입니다.

* 하둡 프로그래밍의 Hello World

 

입력으로 주어진 파일에서 단어들별로 빈도수를 카운트

* 단순 tokenization을 하기 때문에 CJK에는 제대로 동작하지 않음

 

WordCount 의사코드

 

Map(key, value)

- value : a line of text

- workflow

* tokenize value

* For each token

emit(token, 1)

 

Reduce(key, list(values))

- key : a word

- values: a list of count (1)

- workflow

* lterate values and sum them up

* emit (key, sum)

 

빅데이터공부하기 37

WordCount 프로그램

+ Recent posts