빅데이터/빅데이터Hadoop
빅데이터 하둡 프로그래밍 교육과정 ]입력포맷의 역할
행복한짱짱이
2017. 1. 31. 19:36
빅데이터 하둡 프로그래밍 교육과정 ]입력포맷의 역할
빅데이터 하둡 프로그래밍 교육과정 ]입력포맷의 역할
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
입력포맷의 역할
■ 입력포맷은 크게 두 가지 역할을 담당
1. 입력파일(들)을 InputSplit들로 나누기
- 보통 HDFS블록 사이즈로 파일을 나누지만 몇가지 다른 변수들이 존재.
- getSplits 메소드로 입력파일들을 몇개의 InputSplit으로 나눌지를 리턴한다.
- 만일 입력포맷이 어떤 파일을 잘게 나누는 방법을 제공하지 않는다면 isSplitable 호출시 false를 리턴한다.
2. 한 InputSplit내의 레코드들을 읽는 방법 제공
- 이는 입력포맷에서 제공해주는 RecordReader를 통해 이뤄지는데 createRecordReader 메소드를 통해세 제공된다.
- MapReduce 프레임웍은 Job 시작시 지정된 입력포맷을 통해 위의 두 정보를 얻어감