실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

하둡 소개

하둡은 대용량의 데이터를 분산처리해줄 수 있도록 해주는 아파치 톱 레벨 오픈소스 프로젝트
http://hadoop.apache.org/
순전히 소프트웨어 프레임웍이며 자바로 작성.
Nutch/Lucene 프로젝트의 서브컴포넌트로 시작하여 2006년에 독립프로젝트로 분리.
크게 분산파일시스템(HDFS)과 분산처리시스템(MapReduce)으로 구성
이밖에도 하둡커몬(Common)이라고 위의 두 시스템에서 모두 필요한 라이브러리들도 하둡의 일부.

 

 

  

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

빅데이터 시스템의 미래

기본기능 개선

 

하둡의 security는 굉장히 초보적인 수준. 기본적으로 기반 운영체제의 보안을 이용

Scheduling의 경우 기본적으로 FIFO이며 매끄러운 pre-emption을 지원하지 못함

MapReduce 이외의 분산처리 프레임웍 지원

마스터 노드의 failover 기능 지원

기존 RDBMS의 SQL 지원

 

리얼타임 처리


하둡 == 대용량 오프라인 배치 처리 프레임웍
데이터처리에 적어도 시간 단위의 지연이 발생

지금 발생하는 데이터스트림을 바로 처리하고 싶다면?
Splunk, Impala, Druid, …

 

가상화


VMWare의 Serengeti 프로젝트
https://github.com/vmware-serengeti

하둡 클러스터 서버의 이용도(Utilization)를 높이기 위함

특화 서비스들의 출현
예: 추천엔진

많은 수의 회사들이 자사 컨텐츠의 추천엔진으로 하둡을 활용
보통 R이나 Mahout등과 같이 사용

이쪽으로 특화된 서비스들이 나오기 시작
Myrrix: 2013년 7월 Cloudera에 합병

 

 

  

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

관련 회사들

HortonWorks

2011년 야후내의 하둡플랫폼이 분사하여 설립됨. 2006년부터 야후내에서 하둡관련 일을 해온 EricBaldeschwieler가 CTO로 재직

하둡의 초기 발전에 많은 공헌을 함

하는 일이나 성격은 Cloudera와 굉장히 흡사.  Hadoop Summit이란 연례 컨퍼런스 주최

 

기타 플레이어들

MapR: Cloudera나 HortonWorks와 비슷한 스타트업. 자체하둡배포판이 있음

IBM, EMC/Greenplum, SAS, SAP: 기존의 RDBMS나 DW 솔루션에서 하둡기반의 빅데이터로 선회한 케이스들

EMC/VMWare: 빅데이터 시스템들의 가상화라는 측면에서 접근
Serengeti 프로젝트
....

 

 

  

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

관련 회사들

아파치 재단

비영리재단으로 빅데이터 시스템의 거의 모든 프로젝트들이 아파치재단의 오픈소스 프로젝트들. 기업스폰서십이나 개인들의 기부, 컨퍼런스 주최등으로 유지.
현재 100개의 톱레벨 프로젝트가 존재.

아파치 라이센스는 상업적인 목적으로 사용하기에 제약이 거의 없는 라이센스.

www.apache.org

 

Cloudera

2008년 설립된 하둡기반 빅데이터 스타트업. 가장 활발하고 유명하며 많은 수의 하둡관련 오픈소스 프로젝트에 참여.

여기서 만든 하둡 배포판이 가장 많이 사용됨 (CDH라 부름)

Hadoop World라는 연례 컨퍼런스 주최.

하둡관련 교육과 컨설팅으로 주매출 달성.

하둡의 창시자 Doug Cutting도 2009년 조인

 

 

 


 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

오픈소스로 구성된 시스템

요즘 빅데이터시스템들은 대부분 오픈소스 프로젝트들을 여러개 모아서 만들어지고 있음.

이는 문제와 함께 기회를 제공.
보안 문제 가능성 (완전 공개된 소스).
오픈소스는 굉장히 빠르게 진화하며 없어지기도함 (호환성 이슈, 버전간 충돌 이슈 등등).
많은 스타트업들이 버전관리와 서포트를 해주는 배포판제공.

 


 


 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

ROI

MySQL 한대로 충분한지 먼저 생각. 하둡을 기반으로한 빅데이터시스템은 시간,돈,노력이 모두 많이 들어간다는 점을 명심.

정말로 스케일이 문제가 될 경우에만 고려.

고려시에도 처음부터 하드웨어부터 다 준비하지말고 클라우드 서비스를 이용해서 가능성 타진.  


 


 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

프라이버시 이슈

 빅데이터 시스템의 등장은 그 전까지는 불가능했던 레벨의 데이터 수집과 조인을 가능케함 -> 디지털 빅브라더의 탄생이 가능

EU의 경우 선도적으로 많은 부분에서 규제장치를 도입
검색엔진 쿼리의 경우 개인관련 정보(IP주소, 브라우저 쿠키 정보)를 6개월 이상 저장하지 않도록 권고
 
예) 개인화된 검색어 자동완성의 문제점 

 


 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

Trulia


부동산 가격 및 예측 사이트. 2006년 설립된 샌프란시스코 기반의 스타트업 (2013년 나스닥 상장)

부동산세 정보와 부동산 판매가격을 계속적으로 수집/조인하여 가격을 예측.
처음에는 이 프로세스를 MySQL로 구현. 미국전체 데이터를 돌리는데 일주일 걸림.
Hadoop으로 포팅후 7시간으로 단축. 다양한 실험이 가능해짐.


 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

+ Recent posts