빅데이터 하둡 프로그래밍 교육과정] 물리적인 배치

 

빅데이터 하둡 프로그래밍 교육과정] 물리적인 배치

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

물리적인 배치

 

 * HDFS 내의 warehouse 디렉토리
  - 예) /user/hive/warehouse

 * 테이블들은 warehouse 의 서브디렉토리
  - Partitions 과 buckets 은 테이블들의 서브디렉토리
 

 * 실제 데이터는 Flat File 들로 저장
  - 구분자로 분리된 텍스트 형식
  - SerDe 를 통해 임의의 포맷 지원 가능
      : SEQUENCEFILE, RCFILE, ORC, PARQUET

빅데이터 하둡 프로그래밍 교육과정] Hive 데이터 모델

 

빅데이터 하둡 프로그래밍 교육과정] Hive 데이터 모델

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

Hive 데이터 모델

 - 테이블
  : 컬럼 타입 지원(정수, 실수, 문자열, 날짜 등)
  : 리스트나 Map 같은 Collection 타입도 지원
 - 파티션
  : 예) 날짜 기간에 의한 파티션 등
 - Buckets
  :범위 내에서 해쉬 파티션 지원(Sampling 및 최적화된 Join 가능) 

 

빅데이터 하둡 프로그래밍 교육과정] Hive 언어 모델

 

빅데이터 하둡 프로그래밍 교육과정] Hive 언어 모델

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

Hive 언어 모델

 - DDL (Data Definition Language)
  : 테이블 생성, 삭제, 변경
  : 테이블 및 스키마 조회
 - DML (Data Manipulation Language)
  : 로컬 to DFS 업로드
  : Query 결과 to 테이블, 로컬, DFS
 - Query
  : Select, Group By, Sort By
  : Join, Union, Sub Queries, Sampling,Trasform

빅데이터 하둡 프로그래밍 교육과정] Metastore

 

빅데이터 하둡 프로그래밍 교육과정] Metastore

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

Metastore

 - 데이터베이스: 테이블들의 네임스페이스
 - 테이블 속성 보관 (타입, 물리적인 배치)
 - 데이터 파티셔닝
 - JPOX 를 지원하는 Derby, MySQL 등의 다른 일반 RDMBS 를 사용 가능

 

빅데이터 하둡 프로그래밍 교육과정] 프레임워크별 동향

 

빅데이터 하둡 프로그래밍 교육과정] 프레임워크별 동향

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

프레임워크별 동향

 - Google Sawzall
  : 절차형 프로그래밍 언어
  : Google 에서 가장 많이 사용되는 언어
  : 단일 클러스터에서만 월간 3PB 데이터 처리(2005년), 일 1000개 이상의  작업(220대)
  : Pig, Hive 등의 Role Model

 - 아파치 Pig
  :데이터 처리를 위한 고차원 언어
  :아파치 Top-Level 프로젝트
  :Yahoo 내 Hadoop 작업의 30%
  :2007년 배포 이후 2~10배 성능 개선
  :Native 대비 70 ~ 80 % 성능

 - 아파치 Hive
  :데이터 웨어하우징&분석 인프라
  :아파치 Top-Level 프로젝트
  :분석을 위한 SQL 기반 Query
  :저장은 Hadoop DFS 사용
  :Query 내 Hadoop Streaming 연동
  :JDBC 지원
  :FaceBook 주도로 개발
  :Hive 클러스터 at FaceBook
    -약 5,000여대의 하둡 클러스터
    -분석 작업에 Hive 사용
    -수 PB 데이터 압축 관리
    -매일 수백TB 이상 데이터 처리
  :Hive 개발 동기
    -벤더 데이터 웨어하우스 시스템 교체
       :데이터 확장성 문제(최초 10GB -> 수십TB)
       :라이선스 등 운영 비용 절감
       :벤더 DBMS 에서 Hadoop 으로 교체 결정
    -교체 과정에서 나타난 필요 기능을 개발
       :사용자를 위한 CLI
       :코딩 없이 Ad-hoc 질의를 할 수 있는 기능
       :스키마 정보들의 관리 

 

빅데이터 하둡 프로그래밍 교육과정] Hadoop 생산성

 

빅데이터 하둡 프로그래밍 교육과정] Hadoop 생산성

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

Hadoop 생산성


 - 사용자 보다는 개발자 중심
 - 중복된 코딩 및 노력의 반복
 - 실행을 위한 버전 관리, 환경 설정의 복잡성
 - 개발 생산성 개선 필요 

 

빅데이터 하둡 프로그래밍 교육과정] Hadoop 성능

 

빅데이터 하둡 프로그래밍 교육과정] Hadoop 성능

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

Hadoop 성능

 - Jim Grey’s Sort 벤치 마크 테스트
   : 2008년: 1TB 209초 신기록
   : 2009년: 1TB 62초, 1PB 16.25시간
   : 3800대 클러스터, 서버별 8Cores & 8GB RAM

 

빅데이터 하둡 프로그래밍 교육과정] Hadoop성능과 생산성

 

빅데이터 하둡 프로그래밍 교육과정] Hadoop성능과 생산성

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

Hadoop성능과 생산성


 - Yahoo 단일 클러스터
   : 하둡은 SQL언어를 사용할 수 있음 (Hive에서 HiveQL이라는 쿼리 언어  제공)

 - 4000 Nodes, 2Quad Cores
   : 4 x 1TB SATA Disk per Node
   : 8GB RAM, 1GB Link(8GB Up), 40Nodes Rack

 

+ Recent posts