빅데이터 하둡 프로그래밍 교육과정 ]데이터 준비(2)
빅데이터 하둡 프로그래밍 교육과정 ]데이터 준비(2)
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
데이터 준비(2)
■ 싱글서버 하둡을 쓰는 경우를 고려해 처음 2M개의 문서데이터 사용하여 다음 파일들을 생성
- 2M.TITLE.ID
* 각 라인마마 문서타이틀과 문서ID가 나열 (Tab). 둘다 유니크.
- 2M.LINKTEXTS.ID
* 각 문서들마다 들어있는 링크들을 다음과 같은 형태로 정리
**링크텍스트\t소스문서ID
* 한 문서에 들어있는 링크텍스트의 수만큼 위의 패턴이 반복.
- 2M.ID.CONTENTS
* 각 라인마다 “문서ID\t문서텍스트”가 나열됨.
- 2M.SRCID.DSTID
* 각 라인마다 “소스문서ID\t타켓문서ID”가 나열됨. 이는 문서간의 링크관계를 나타냄.
- RandomString.txt
* 임의의 문자열이 들어간 텍스트파일. 7장 StringSort에서 사용.
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ]개요 (0) | 2017.02.02 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ]데이터 다운로드 (0) | 2017.02.02 |
빅데이터 하둡 프로그래밍 교육과정 ]데이터 준비 (1) (0) | 2017.02.02 |
빅데이터 하둡 프로그래밍 교육과정 ]WordCountTest.java (0) | 2017.02.02 |
빅데이터 하둡 프로그래밍 교육과정 ]보너스: MRUnit (0) | 2017.02.02 |