빅데이터 하둡 프로그래밍 교육과정 ]입력포맷의 역할




빅데이터 하둡 프로그래밍 교육과정 ]입력포맷의 역할

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


입력포맷의 역할


입력포맷은 크게 두 가지 역할을 담당


1. 입력파일(들)을 InputSplit들로 나누기

  - 보통 HDFS블록 사이즈로 파일을 나누지만 몇가지 다른 변수들이 존재.

  - getSplits 메소드로 입력파일들을 몇개의 InputSplit으로 나눌지를 리턴한다. 

  - 만일 입력포맷이 어떤 파일을 잘게 나누는 방법을 제공하지 않는다면 isSplitable 호출시 false를 리턴한다.  


2. 한 InputSplit내의 레코드들을 읽는 방법 제공

  - 이는 입력포맷에서 제공해주는 RecordReader를 통해 이뤄지는데 createRecordReader 메소드를 통해세 제공된다.

  - MapReduce 프레임웍은 Job 시작시 지정된 입력포맷을 통해 위의 두 정보를 얻어감



+ Recent posts