빅데이터공부하기 !!!
WordCount에 대해서 공부할거에요 ^^
37번라인글도 퐈이팅!!
WordCount 프로그램
가장 기본이 되는 프로그램입니다.
* 하둡 프로그래밍의 Hello World
입력으로 주어진 파일에서 단어들별로 빈도수를 카운트
* 단순 tokenization을 하기 때문에 CJK에는 제대로 동작하지 않음
WordCount 의사코드
Map(key, value)
- value : a line of text
- workflow
* tokenize value
* For each token
emit(token, 1)
Reduce(key, list(values))
- key : a word
- values: a list of count (1)
- workflow
* lterate values and sum them up
* emit (key, sum)
빅데이터공부하기 37
WordCount 프로그램
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 39 MAIN 함수 코드 설명 (0) | 2014.09.01 |
---|---|
빅데이터공부하기 38 MAPREDUCE 프로그램의 기본골격 (0) | 2014.08.29 |
빅데이터공부하기 36-4 예제프로그램 실행확인 (0) | 2014.08.27 |
빅데이터공부하기 36-3 웹인터페이스 (0) | 2014.08.26 |
빅데이터공부하기 36-2 하둡 Pseudo mode 설치 (0) | 2014.08.26 |