빅데이터공부하기 48번째글입니다.
오랜만에 빅데이터공부를하네요 ㅋㅋ
48번째는 출력포맷 클래스에대해서 공부할거에요.
1. TextOutputFormat
2. SequenceFileOutputFormat
두가지로 배워보겠습니다.
1. TextOutputFormat
FileOutputFormat에서 계승된 디폴트 출력 클래스
- 출력 클래스는 Job클래스의 setOutputFormatClass로 지정
TextInputFormat의 반대역할
- 텍스트파일이 만들어지면 출력레코드 하나가 한줄이 됩니다.
출력되는 키와 밸류 사이에 tab문자가 놓임
- keyValueTextOutputFormat은 존재하지 않음
키와 밸류의 타입은 아무 타입이나 가능
2. SequenceFileOutputFormat
SequenceFile 포맷의 파일을 쓸때 사용하는 포맷
- 특히 여러 하둡잡들을 체인닝하여 작업을 할 때 굉장히 유용 (퍼포먼스 측면)
퍼포먼스를 고려하면 반드시 사용해야할 출력포맷. setOutputCompressionType 메소드를 통해 압출 방식 지정가능 (BLICK, NONE, RECORD)
헤더의 존재로 인해 파일이 내용이 없는 경우에도 크기가 0가 아님
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터공부하기 50 hadoop job 커맨드 (0) | 2014.10.27 |
---|---|
빅데이터공부하기 49_ 카운터 (0) | 2014.10.27 |
빅데이터공부하기 47-1 Identity Reducer (0) | 2014.09.25 |
빅데이터공부하기 47 Reducer 클래스의 메소드들 (0) | 2014.09.24 |
빅데이터공부하기 46-4 WritableComparator (0) | 2014.09.22 |