빅데이터공부하기 44-1 입력포맷클래스..
명절 다들 잘 보내셨나요??^^
쉬는날은 빨리지나가죠...
오늘도 빅데이터 공부를 모두 파이팅하면서 시작합시다!!
이건 복싑이죠 ><
KeyValueTextInputFormat
- TextInputFormat과 흡사
- 텍스트라인에서 키와 밸류가 tab문자를 사이에 두고 나뉘었다고 가정.
키와 밸류는 모두 Text타입
- tab이외의 다른 문자를 delimiter로 사용시
Configuration의 "key.value.separator.in.input.line"프로퍼티를 해당
문자로 설정
SequenceFileInputFormat
- SequenceFile포맷의 파일을 읽어들일때 사용하는 포맷
SequenceFile : 하둡 고유의 바이내리 키/ 밸류기반 압축지원 파일포맷.
키와 밸류는 어떤 타입이건 가능
특히 여러 하둡잡들을 체인닝하여 작업을 할때 굉장히유용(퍼포먼스 측면)
- 퍼포먼스를 고려하면 반드시 사용해야할 입력포맷
기타 입력파일 지정방법
- MultipleInputs.addInputPath
간혹 입력파일들에 따라 다른 mapper를 지정하면 일이 단순해지는 경우가 존재
입력파일에 따라 다른 입력포맷과 mapper를 지정가능
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 44-3 TextInputFormat 소스 (0) | 2014.09.12 |
---|---|
빅데이터공부하기 44-2 입력포맷의 역할 (0) | 2014.09.11 |
빅데이터공부하기 44 입력포맷 클래스들 (0) | 2014.09.05 |
빅데이터공부하기 43-3 Mapper 갯수의 결정방식 (0) | 2014.09.05 |
빅데이터공부하기 43-2 Mapper 입력, 출력 (0) | 2014.09.04 |