빅데이터 하둡 프로그래밍 교육과정] 프레임워크별 동향
빅데이터 하둡 프로그래밍 교육과정] 프레임워크별 동향
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
프레임워크별 동향
- Google Sawzall
: 절차형 프로그래밍 언어
: Google 에서 가장 많이 사용되는 언어
: 단일 클러스터에서만 월간 3PB 데이터 처리(2005년), 일 1000개 이상의 작업(220대)
: Pig, Hive 등의 Role Model
- 아파치 Pig
:데이터 처리를 위한 고차원 언어
:아파치 Top-Level 프로젝트
:Yahoo 내 Hadoop 작업의 30%
:2007년 배포 이후 2~10배 성능 개선
:Native 대비 70 ~ 80 % 성능
- 아파치 Hive
:데이터 웨어하우징&분석 인프라
:아파치 Top-Level 프로젝트
:분석을 위한 SQL 기반 Query
:저장은 Hadoop DFS 사용
:Query 내 Hadoop Streaming 연동
:JDBC 지원
:FaceBook 주도로 개발
:Hive 클러스터 at FaceBook
-약 5,000여대의 하둡 클러스터
-분석 작업에 Hive 사용
-수 PB 데이터 압축 관리
-매일 수백TB 이상 데이터 처리
:Hive 개발 동기
-벤더 데이터 웨어하우스 시스템 교체
:데이터 확장성 문제(최초 10GB -> 수십TB)
:라이선스 등 운영 비용 절감
:벤더 DBMS 에서 Hadoop 으로 교체 결정
-교체 과정에서 나타난 필요 기능을 개발
:사용자를 위한 CLI
:코딩 없이 Ad-hoc 질의를 할 수 있는 기능
:스키마 정보들의 관리
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정] Hive 언어 모델 (0) | 2018.03.04 |
---|---|
빅데이터 하둡 프로그래밍 교육과정] Metastore (0) | 2018.03.04 |
빅데이터 하둡 프로그래밍 교육과정] Hadoop 생산성 (0) | 2018.03.04 |
빅데이터 하둡 프로그래밍 교육과정] Hadoop 성능 (0) | 2018.03.04 |
빅데이터 하둡 프로그래밍 교육과정] Hadoop성능과 생산성 (0) | 2018.03.04 |