빅데이터공부하기 48 출력포맷 클래스

행복한짱짱이 2014. 10. 24. 16:05

2014. 10. 24. 16:05

빅데이터공부하기 48번째글입니다.

오랜만에 빅데이터공부를하네요 ㅋㅋ

48번째는 출력포맷 클래스에대해서 공부할거에요.

1. TextOutputFormat

2. SequenceFileOutputFormat

두가지로 배워보겠습니다.

1. TextOutputFormat

FileOutputFormat에서 계승된 디폴트 출력 클래스

- 출력 클래스는 Job클래스의 setOutputFormatClass로 지정

TextInputFormat의 반대역할

- 텍스트파일이 만들어지면 출력레코드 하나가 한줄이 됩니다.

출력되는 키와 밸류 사이에 tab문자가 놓임

- keyValueTextOutputFormat은 존재하지 않음

키와 밸류의 타입은 아무 타입이나 가능

2. SequenceFileOutputFormat

SequenceFile 포맷의 파일을 쓸때 사용하는 포맷

- 특히 여러 하둡잡들을 체인닝하여 작업을 할 때 굉장히 유용 (퍼포먼스 측면)

퍼포먼스를 고려하면 반드시 사용해야할 출력포맷. setOutputCompressionType 메소드를 통해 압출 방식 지정가능 (BLICK, NONE, RECORD)

헤더의 존재로 인해 파일이 내용이 없는 경우에도 크기가 0가 아님

빅데이터공부하기 50 hadoop job 커맨드 (0)	2014.10.27
빅데이터공부하기 49_ 카운터 (0)	2014.10.27
빅데이터공부하기 47-1 Identity Reducer (0)	2014.09.25
빅데이터공부하기 47 Reducer 클래스의 메소드들 (0)	2014.09.24
빅데이터공부하기 46-4 WritableComparator (0)	2014.09.22

it개발자스터디공간