빅데이터 하둡 프로그래밍 교육과정] 부분 정렬(Partial Sort)

 

빅데이터 하둡 프로그래밍 교육과정] 부분 정렬(Partial Sort)

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

부분 정렬(Partial Sort)

 - 매퍼의 출력 데이터(파티셔닝 된 것)를 맵파일(MapFile)로 변경해서 데이터를 검색하는 방법

 - 특정 키에 대한 데이터를 검색할 경우, 해당 키에 대한 데이터가 저장된 맵  파일에 접근해서 데이터를 조회함

 - Task: 미국 항공 지연 통계 데이터를 항공 운항 거리 순서대로 정렬하는 부분 정렬 프로그램
 1. 입력 데이터를 시퀀스 파일로 생성
 2. 시퀀스 파일을 맵파일로 변경
 3. 맵파일에서 데이터를 검색

 1.시퀀스 파일 생성
   : 미국 항공 운항 데이터를 시퀀스 파일로 출력
   : 이 시퀀스 파일은 다음 단계에서 맵파일로 변환됨
   : 2008년도 데이터를 대상으로 시퀀스 파일 생성
   : 첫 행은 컬럼명이 써져 있기 때문에 출력하지 않음
   : 키를 운항거리, 값은 쉼표로 구분된 데이터들이 출력됨

 2. 맵파일 생성
   : 맵파일 : 키값을 검색할 수 있게 색인과 함께 정렬된 시퀀스 파일
   : 물리적으로 색인이 저장된 index파일과 데이터 내용이 저장돼 있는 data 파일로 구성됨
   : 앞에서 생성된 시퀀스 파일을 변환해 맵파일로 생성할 수 있음
   : 운항 거리를 기준으로 정렬되어 맵파일이 출력됨

 3. 검색 프로그램 구현
   : 맵파일에서 우리가 원하는 키에 해당하는 값을 검색하는 방법
   : 검색의 ‘키’는 ‘파티셔너’임
   : 검색하고자 하는 키가 속하는 파티션 번호를 조회한 후, 파티션 번호로 맵파일에 접근해 데  이터를 검색 

 

+ Recent posts