빅데이터 하둡 프로그래밍 교육과정] 프레임워크별 동향

 

빅데이터 하둡 프로그래밍 교육과정] 프레임워크별 동향

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

프레임워크별 동향

 - Google Sawzall
  : 절차형 프로그래밍 언어
  : Google 에서 가장 많이 사용되는 언어
  : 단일 클러스터에서만 월간 3PB 데이터 처리(2005년), 일 1000개 이상의  작업(220대)
  : Pig, Hive 등의 Role Model

 - 아파치 Pig
  :데이터 처리를 위한 고차원 언어
  :아파치 Top-Level 프로젝트
  :Yahoo 내 Hadoop 작업의 30%
  :2007년 배포 이후 2~10배 성능 개선
  :Native 대비 70 ~ 80 % 성능

 - 아파치 Hive
  :데이터 웨어하우징&분석 인프라
  :아파치 Top-Level 프로젝트
  :분석을 위한 SQL 기반 Query
  :저장은 Hadoop DFS 사용
  :Query 내 Hadoop Streaming 연동
  :JDBC 지원
  :FaceBook 주도로 개발
  :Hive 클러스터 at FaceBook
    -약 5,000여대의 하둡 클러스터
    -분석 작업에 Hive 사용
    -수 PB 데이터 압축 관리
    -매일 수백TB 이상 데이터 처리
  :Hive 개발 동기
    -벤더 데이터 웨어하우스 시스템 교체
       :데이터 확장성 문제(최초 10GB -> 수십TB)
       :라이선스 등 운영 비용 절감
       :벤더 DBMS 에서 Hadoop 으로 교체 결정
    -교체 과정에서 나타난 필요 기능을 개발
       :사용자를 위한 CLI
       :코딩 없이 Ad-hoc 질의를 할 수 있는 기능
       :스키마 정보들의 관리 

 

+ Recent posts