빅데이터공부하기 52 위키파디아 _데이터준비

행복한짱짱이 2014. 10. 31. 18:41

2014. 10. 31. 18:41

빅데이터공부하기 52번째글입니다.

위키파디아 _ 데이터준비

앞으로 예제 프로그램들에서 사용할 데이터들을 설명

Freebase에서 다운로드 된 영문 wikipedia문서들을 대상으로 함.

- 한글문서를 하고 싶었지만 괞찬은 무료형태소분석기를 못찾았습니다. ㅜ

다음파일을 다운로드

- wget

싱글서버 하둡을 쓰는 경우를 고려해 처음 2M개의 문서데이터 사용하여 다음 파일들을 생성

- 2M.TITLE.ID

* 각 라인마마 문서타이틀과 문서 ID가 나열 (Tab). 둘다 유니크.

-2M.ID.CONTENTS

* 각 문서들 마다 들어있는 링크들을 다음과 같은 형태로 정리

- 링크텍스트/ t소스문서ID

* 한 문서에 들어있는 링크텍스트의 수만큼 위의 패턴이 반복

- 2M.ID.CONTENTS

* 각 라인마다 "소스문서 ID /t타켓문서ID"가 나열됨. 이는 문서간의 링크관계를 나타냄

- RandomString.txt

* 임의의 문자열이 들어간 텍스트파일. 7장 StringSort에서 사용.

빅데이터공부하기 53 word count v2 (0)	2014.11.03
빅데이터공부하기 52_1 위키피디아 데이터 다운로드 (0)	2014.11.03
빅데이터공부하기 51_4 MRUnit / WordCountTest.java (0)	2014.10.29
빅데이터공부하기 51 _3 Task Log 페이지 (0)	2014.10.29
빅데이터공부하기 51_1 Job Tracker 웹인터페이스 (0)	2014.10.28

it개발자스터디공간