빅데이터 하둡 프로그래밍 교육과정 ]입력포맷의 역할
빅데이터 하둡 프로그래밍 교육과정 ]입력포맷의 역할
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
입력포맷의 역할
■ 입력포맷은 크게 두 가지 역할을 담당
1. 입력파일(들)을 InputSplit들로 나누기
- 보통 HDFS블록 사이즈로 파일을 나누지만 몇가지 다른 변수들이 존재.
- getSplits 메소드로 입력파일들을 몇개의 InputSplit으로 나눌지를 리턴한다.
- 만일 입력포맷이 어떤 파일을 잘게 나누는 방법을 제공하지 않는다면 isSplitable 호출시 false를 리턴한다.
2. 한 InputSplit내의 레코드들을 읽는 방법 제공
- 이는 입력포맷에서 제공해주는 RecordReader를 통해 이뤄지는데 createRecordReader 메소드를 통해세 제공된다.
- MapReduce 프레임웍은 Job 시작시 지정된 입력포맷을 통해 위의 두 정보를 얻어감
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ]밸류 타입 (0) | 2017.01.31 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ]TextInputFormat 소스 (0) | 2017.01.31 |
빅데이터 하둡 프로그래밍 교육과정 ]기타 입력파일 지정방법 (0) | 2017.01.25 |
빅데이터 하둡 프로그래밍 교육과정 ]SequenceFileInputFormat (0) | 2017.01.25 |
빅데이터 하둡 프로그래밍 교육과정 ]KeyValueTextInputFormat (0) | 2017.01.25 |