빅데이터공부하기 입력포맷의 역활에 대해 알아볼께요 ^^
입력포맷은 크게 두 가지 역할을 담당합니다.
1. 입력파일(들)을 InputSplit들로 나누기
보통HDFS블록 사이즈로 파일을 나누지만 몇가지 다른 변수들이 존재
getSplits 메소드로 입력파일들을 몇개의 InputSplit으로 나눌지를 리턴한다.
만일 입력포맷이 어떤 파일을 잘게 나누는 방법을 제공하지 않는다면 isSplitable 호출시 false를 리턴한다.
2. 한 InputSplit내의 레코드들을 읽는 방법을 제공한다.
이는 입력포맷에서 제공해주는 RecordReader를 통해 이뤄지는데 createRecordReader메소드를 통해서 제공된다.
MapReduce 프레임웍은 Job 시작시 지정된 입력포맷을 통해 위의 두정보를 얻어갑니다.
빅데이터공부하기 44-2 입력포맷의 역할
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 45 MapReduce에서 사용되는 타입들 (0) | 2014.09.12 |
---|---|
빅데이터공부하기 44-3 TextInputFormat 소스 (0) | 2014.09.12 |
빅데이터공부하기 44-1 입력포맷클래스.. (0) | 2014.09.11 |
빅데이터공부하기 44 입력포맷 클래스들 (0) | 2014.09.05 |
빅데이터공부하기 43-3 Mapper 갯수의 결정방식 (0) | 2014.09.05 |