빅데이터 하둡 프로그래밍 교육과정] 부분 정렬(Partial Sort)
빅데이터 하둡 프로그래밍 교육과정] 부분 정렬(Partial Sort)
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
부분 정렬(Partial Sort)
- 매퍼의 출력 데이터(파티셔닝 된 것)를 맵파일(MapFile)로 변경해서 데이터를 검색하는 방법
- 특정 키에 대한 데이터를 검색할 경우, 해당 키에 대한 데이터가 저장된 맵 파일에 접근해서 데이터를 조회함
- Task: 미국 항공 지연 통계 데이터를 항공 운항 거리 순서대로 정렬하는 부분 정렬 프로그램
1. 입력 데이터를 시퀀스 파일로 생성
2. 시퀀스 파일을 맵파일로 변경
3. 맵파일에서 데이터를 검색
1.시퀀스 파일 생성
: 미국 항공 운항 데이터를 시퀀스 파일로 출력
: 이 시퀀스 파일은 다음 단계에서 맵파일로 변환됨
: 2008년도 데이터를 대상으로 시퀀스 파일 생성
: 첫 행은 컬럼명이 써져 있기 때문에 출력하지 않음
: 키를 운항거리, 값은 쉼표로 구분된 데이터들이 출력됨
2. 맵파일 생성
: 맵파일 : 키값을 검색할 수 있게 색인과 함께 정렬된 시퀀스 파일
: 물리적으로 색인이 저장된 index파일과 데이터 내용이 저장돼 있는 data 파일로 구성됨
: 앞에서 생성된 시퀀스 파일을 변환해 맵파일로 생성할 수 있음
: 운항 거리를 기준으로 정렬되어 맵파일이 출력됨
3. 검색 프로그램 구현
: 맵파일에서 우리가 원하는 키에 해당하는 값을 검색하는 방법
: 검색의 ‘키’는 ‘파티셔너’임
: 검색하고자 하는 키가 속하는 파티션 번호를 조회한 후, 파티션 번호로 맵파일에 접근해 데 이터를 검색
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정] Hadoop성능과 생산성 (0) | 2018.03.04 |
---|---|
빅데이터 하둡 프로그래밍 교육과정] 전체 정렬(Total Sort) (0) | 2018.03.04 |
빅데이터 하둡 프로그래밍 교육과정] 보조 정렬(Secondary Sort) (0) | 2018.03.04 |
빅데이터 하둡 프로그래밍 교육과정] 체인 (0) | 2018.03.04 |
빅데이터 하둡 프로그래밍 교육과정] ToolRunner (0) | 2018.03.04 |