빅데이터공부하기 44 입력포맷 클래스들
이번빅데이터하둡 공부도 우리 다같이 파이팅합시다 ^^
TextInputFormat
디폴트 입력포맷클래스는 textInputFormat
- FileInputFormat에서 계승됨
-텍스트파일 대상이며 .gz로 압축된 것도 처리
- 라인 하나 (\n,\r)가 하나의 입력레코드
- 키: 라인의 파일 오프셋. LongWritable 타입
- 밸류: 라인전체 스트링. Text타입
입력포맷클래스의 변경은 Job클래스의 setInputFormatClass로 지정
KeyValueTextInputformat
TextInputFormat과 흡사
텍스트라인에서 키와 밸류가 tab 문자를 사이에 두고 나뉘었다고 가정. 키와 밸류는 모두 Text 타입
tab이외의 다른 문자를 deliniter로 사용시
- Configuration의 "key.value.separator.in.input.line" 프로퍼티를 해당 문자로 설정
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 44-2 입력포맷의 역할 (0) | 2014.09.11 |
---|---|
빅데이터공부하기 44-1 입력포맷클래스.. (0) | 2014.09.11 |
빅데이터공부하기 43-3 Mapper 갯수의 결정방식 (0) | 2014.09.05 |
빅데이터공부하기 43-2 Mapper 입력, 출력 (0) | 2014.09.04 |
빅데이터공부하기 43-1 Mapper Internals 2 (0) | 2014.09.04 |