빅데이터공부하기 44 입력포맷 클래스들

 

이번빅데이터하둡 공부도 우리 다같이 파이팅합시다 ^^

 

TextInputFormat

 

디폴트 입력포맷클래스는 textInputFormat

- FileInputFormat에서 계승됨

-텍스트파일 대상이며 .gz로 압축된 것도 처리

- 라인 하나 (\n,\r)가 하나의 입력레코드

- 키: 라인의 파일 오프셋. LongWritable 타입

- 밸류: 라인전체 스트링. Text타입

 

입력포맷클래스의 변경은 Job클래스의 setInputFormatClass로 지정

 

 

KeyValueTextInputformat

 

TextInputFormat과 흡사

 

텍스트라인에서 키와 밸류가 tab 문자를 사이에 두고 나뉘었다고 가정. 키와 밸류는 모두 Text 타입

 

tab이외의 다른 문자를 deliniter로 사용시

- Configuration의 "key.value.separator.in.input.line" 프로퍼티를 해당 문자로 설정

 

 

 

 

 

 

+ Recent posts