빅데이터공부하기 44-1 입력포맷클래스..

명절 다들 잘 보내셨나요??^^

쉬는날은 빨리지나가죠...

오늘도 빅데이터 공부를 모두 파이팅하면서 시작합시다!!

 

이건 복싑이죠 ><

KeyValueTextInputFormat

 

- TextInputFormat과 흡사

 

- 텍스트라인에서 키와 밸류가 tab문자를 사이에 두고 나뉘었다고 가정.

키와 밸류는 모두 Text타입

 

- tab이외의 다른 문자를 delimiter로 사용시

Configuration의 "key.value.separator.in.input.line"프로퍼티를 해당

문자로 설정

 

 

 

 

 

 

SequenceFileInputFormat

 

- SequenceFile포맷의 파일을 읽어들일때 사용하는 포맷

SequenceFile : 하둡 고유의 바이내리 키/ 밸류기반 압축지원 파일포맷.

키와 밸류는 어떤 타입이건 가능

 

특히 여러 하둡잡들을 체인닝하여 작업을 할때 굉장히유용(퍼포먼스 측면)

 

- 퍼포먼스를 고려하면 반드시 사용해야할 입력포맷

 

 

기타 입력파일 지정방법

 

- MultipleInputs.addInputPath

간혹 입력파일들에 따라 다른 mapper를 지정하면 일이 단순해지는 경우가 존재

 

입력파일에 따라 다른 입력포맷과 mapper를 지정가능

 

 

+ Recent posts