빅데이터공부하기 48번째글입니다.

오랜만에 빅데이터공부를하네요 ㅋㅋ

 

48번째는 출력포맷 클래스에대해서 공부할거에요.

1. TextOutputFormat

2. SequenceFileOutputFormat

두가지로 배워보겠습니다.

 

1. TextOutputFormat

 

FileOutputFormat에서 계승된 디폴트 출력 클래스

- 출력 클래스는 Job클래스의 setOutputFormatClass로 지정

 

TextInputFormat의 반대역할

- 텍스트파일이 만들어지면 출력레코드 하나가 한줄이 됩니다.

 

출력되는 키와 밸류 사이에 tab문자가 놓임

- keyValueTextOutputFormat은 존재하지 않음

 

키와 밸류의 타입은 아무 타입이나 가능

 


 

2. SequenceFileOutputFormat

 

SequenceFile 포맷의 파일을 쓸때 사용하는 포맷

- 특히 여러 하둡잡들을 체인닝하여 작업을 할 때 굉장히 유용 (퍼포먼스 측면)

 

퍼포먼스를 고려하면 반드시 사용해야할 출력포맷. setOutputCompressionType 메소드를 통해 압출 방식 지정가능 (BLICK, NONE, RECORD)

 

헤더의 존재로 인해 파일이 내용이 없는 경우에도 크기가 0가 아님

 

 

 

 

 

+ Recent posts