빅데이터공부하기 20 하둡배포판

 

빅데이터공부하기 20번째글은 하둡배포판에 대해서 공부를 해보겠습니다.

 

 

 

 

하둡배포판

 

- 아파치재단(Apache Foundation)이 제공하는 하둡은 0.10버전부터 시작해서 현재 0.23까지 나와있으면 이중 일부 버전은 1.0과 2.0의 메이저버전으로 존재합니다.

 

- 지금 현재 액티브하게 개발되고 있는 버전들은 다음과 같습니다.

* 2.x.x: 현재 베타전(0.23.x기반)

* 1.x:현재 안정버전(0.22.x기반)

 

- 뒤에서 랩세션에서는 1.0.3의 하둡을 사용할 것입니다.

 


 

 

3rd 파티 하둡 배포판

 

- 대표적으로 클라우데라(Cloudera)나 홀튼웍스(HortonWorks),MapR등의 회사도 하둡배포판을 만듬

 

- 참고로 클라우데라의 배포판들은 http://www.cloudera.com/hadoop/ 에서 더 자세한 사항을 볼 수 있는데 실질적으로 가장 많이 사용되는 배포판이며 흔히 CDH라 부릅니다.

 

- 홀튼웍스의 배포판은 폴튼웍스 데이터 플랫폼이라 불리우며 HDP라 부르기도 합니다.

http://hortonworks.com/products/hortonwoksdataplatform/ 에서 다운로드 가능

 

- 둘다 역시 오픈소스이며 개인이 사용할 경우 무료이다.

 

- MapR의 배포판은 AWS의 ElasticMapReduce에서 사용

 

- VMWare가 가상화버전의 Hadoop을 발표 (2012 Hadoop Summit)-ProjectWerengeti

 

 

 

빅데이터공부하기 20 하둡배포판

 

빅데이터 공부하기 19 하둡의 발전

 

19번째글입니다. 빅데이터 공부하기 이번글은 하둡에 발전에 대해서 간략하게 공부해볼께요 ^^

 

 

 

 

하둡의 발전

 

- 2005년 Doug Cutting이 Nutch 크롤/검색패키지에 구글페이퍼를 기반으로한

   HDFS/MapReduce 프레임웍을 추가하면서 시작.

 

- 2006년 Hadoop이 Nutch에서 떨어져나와 아파치 톱레벨 프로젝트로 변신

 

- 2008년 야후에서 1000 노드 하둡클러스터를 프로덕션에서 사용시작

 

- 2012년 현재 하둡 생태계가 활발히 커가고 있음

* 컨퍼런스 Hadoop Summit, Hadoop World

* 많은 종류 하둡기반 혹은 변방 소프트웨어들과 스타트업들

 

 

 

빅데이터 공부하기 19 하둡의 발전

빅데이터공부하기18 하둡의 특징

 

빅데이터공부하기18번째글 ...

하둡의 특징에 대하여 공부해볼까요..^^

오늘 너무 더워요 ㅠㅠ

다들 선크림 꼭꼭 챙겨 바르세요 ^^

 

 

 

하둡의 특징

 

데이터가 있는 곳으로 코드를 이동

- 대부분의 경우 데이터의 크기가 더 크다.

 

스케일 아웃(vs. 스케일 업)

- 소수의 비싼 서버 보다는 다수의 저렴한 서버 사용

 

단순한 데이터 모델

- 반복적인 Key/Value pair의 트랜스포메이션.

- 데이터의 locality를 최대한 이용한 프로그래밍 모델

 

오프라인 배치 프로세싱에 최적화

 


 

(Hadoop 1.0 기준)

기본적으로 하나의 마스터와 다수의 슬레이브로 구성된 마스터/ 슬레이브 아키텍쳐를 HDFS와 MapReduce 모두에 적용

 

HDFS

- 하나의 Name Node(마스터)와 하나 이상의 Data Nodes(슬레이브)

- Secondary NameNode가 존재하여 주기적으로 Name Node의 내용을 백업(snapshot)

 

MapReduce

- 하나의 Job Tracker(마스터)와 하나의 Task Trackers(슬레이브)

 

대부분의 경우 이 둘은 한 물리적인 클러스터에 공존

- Name Node/Job Tracker가 같이 살고 Data Node/Task Tracker가 같이 동거

 

 

 

빅데이터공부하기18 하둡의 특징

 

빅데이터공부하기 17 하둡 ?!

 

빅데이터공부하기 17번째글은 하둡에 대해 소개를 해드리도록 하겠습니다.

오늘하루도 아자자!!! ^^

 

 

 

 

하둡소개

 

하둡은 대용량의 데이터를 분산처리해줄 수 있도록 해주는 아파치톱레벨 오픈소스

프로젝트입니다.

- http://hadoop.apache.org

 

- 순전히 소프트웨어 프레임웍이며 자바로 작성

 

- Nuch/Lucene프로젝트 서브컴포넌트로 시작하여 2006년에 독립프로젝트로 분리

 

- 크게 분산파일시스템(HDFS)과 분산처리시스템(MapReduce)으로 구성

* 이밖에도 하둡커몬 (Common)이라고 위의 두 시스템에서 모두 필요한

   라이브러리들도 하둡의 일부

 

 

다음글에서는 하둡의 특징에 대해서 공부할꼬에요~~ ^^

매일매일 열심히 공부!! 아자자!!!

 

 

빅데이터공부하기 17 하둡 ?!

빅데이터공부하기 16. 빅데이터 시스템의 미래

 

빅데이터공부하기 16번째 공부입니다.

빅데이터 시스템의 미래에 대해 공부해볼께요 ^-^

 

빅데이터 시스템의 미래

 

기본기능 개선

- 하둡의 security는 굉장히 초보적인 수준.

  기본적으로 기반 운영 체제의 보안을 이용

 

- Scheduling의 경우 기본적으로 FIFO이며 매끄러운 pre-emption을 지원하지 못함

 

- MapReduce 이외의 분산처리 프레임웍 지원

 

- 마스터 노드의 failover 기능 지원

 

- 기존 RDBMS의 SQL 지원

 

리얼타임 처리

- 하둡 == 대용량 오프라인 배치 처리 프레임웍

* 데이터처리에 적어도 시간 단위의 지연이 발생

 

- 지금 발생하는 데이터스트림을 바로 처리하고 싶다면?

* Splunk, Impala, Druid, ...

 

가상화

- VMWare의 Serengeti 프로젝트

* http://github.com/vmware-serengeti

 

- 하둡 클러스터 서버의 이용도(Utilization)를 높이기 위함

 

특화 서비스들의 출현

- 예 : 추천엔진

 

- 많은 수의 회사들이 자사 컨텐츠의 추천엔진으로 하둡을 활용

* 보통 R이나 Mahout등과 같이 사용

 

- 이쪽으로 특화된 서비스들이 나오기 시작

* Myrrix: 2013년 7월 Cloudera에 합병

 

 

빅데이터공부하기 16. 빅데이터 시스템의 미래

빅데이터공부하기 15. 빅데이터관련회사

 

빅데이터공부하기 15번째글입니다.

이번글은 빅데이터의 관련회사들에 대해서 알아보도록 하겠습니다.

 

빅데이터 관련 회사

 

1. 아파치 재단

 

- 비영리 재단으로 빅데이터 시스템의 거의 모든 프로젝트들이 아파치재단의 오픈소스 프로젝트들, 기업스폰서십이나 개인들의 기부, 컨퍼런스 주최등으로 유지.

* 현재 100 개의 톱레벨 프로젝트가 존재

 

- 아파치 라이센스는 상업적인 목적으로 사용하기에 제약이 거의 없는 라이센스

- www.apache.org

 

 

2. Cloudera

 

- 2008년 설립된 하둡기반 빅데이터 스타트업. 가장 활발하고 유명하며 많은 수의 하둡관련 오픈소스 프로젝트에 참여

 

- 여기서 만든 하둡 배포판이 가장 많이 사용됨(CDH라 부릅니다.)

 

- Hadoop World라는 연례 컨퍼런스 주최

 

- 하둡관련 교육과 컨설팅으로 주 매출 달성.

 

- 하둡의 창시자 Doug Cutting도 2009년 조인

 

3. HortonWorks

 

- 2011년 야후내의 하둡플랫폼이 분사하여 설립됨. 2006년부터 야후내에서 하둡관련 일을 해온 EricBaldeschwieler가 CTO로 재직

 

- 하둡의 초기 발전에 많은 공헌을 함

 

- 하는 일이나 성격은 Cloudera와 굉장히 흡사. Hadoop Summit이란 연례 컨퍼런스 주최

 

4. 기타 플레이어들

 

- MapR: Cloudera나 HortonWorks와 비슷한 스타트업. 자체하둡배포판이 있음

 

- IBM, EMC/Greenplum, SAS, SAP: 기존의 RDBMS나 DW 솔루션에서 하둡기반의 빅데이터로 선회한 케이스들

 

- EMC/VMWare: 빅데이터 시스템들의 가상화라는 측면에서 접근

*  Serengeti 프로젝트

 

 

빅데이터공부하기 15. 빅데이터관련회사

 

 

빅데이터공부하기 14-1 빅데이터문제점

 

이번 빅데이터공부하기도 빅데이터의 문제점에 대해서 알아보도록 하겠습니다. ^-^

곧 태풍 너구리가 온다네요.. 피해가 없었음 좋겠어요 ㅠㅠ

빅데이터 공부를 시작해볼까용~~

 

 

 

 <-- 빅데이터 오프라인교육안내입니다. ^-^

       문의는 02-6925-4760으로 연락주세요!

 

 

 

 

 

 

 

 

 

 

 

빅데이터문제점

ROI

- MySQL 한대로 충분한지 먼저 생각.

   하둡을 기반으로한 빅데이터시스템은 시간, 돈, 노력이 모두 많이 들어간다는

   점을 명심.

 

- 정말로 스케일이 문제가 될 경우에만 고려.

- 고려시에도 처음부터 하드웨어부터 다 준비하지말고 클라우드 서비스를 이용

   해서 가능성 타진.

 

오픈소스로 구성된 시스템

- 요즘 빅데이터시스템들은 대부분 오픈소스 프로젝트들을 여러개 모아서 만들어

   지고 있음.

 

- 이는 문제와 함께 기회를 제공

* 보안 문제 가능성(완전 공개된 소스)

* 오픈소스는 괸장히 빠르게 진화하며 없어지기도함

(호환성 이슈, 버전간 충돌 이슈 등등)

* 많은 스타트업들이 버전관리와 서포트를 해주는 배포판제공

 

 

 

 

빅데이터공부하기 14-1 빅데이터문제점

빅데이터공부하기 14. 빅데이터문제점

 

빅데이터공부하기 14번째글입니다.

빅데이터공부는 오랜만이네요 ^^ 앞으로는 빅데이터도 열씨미 공부할ㄲㅔ요 하트3

 

빅데이터문제점

 

프라이버시 이슈

-  빅데이터 시스템의 등장은 그 전까지는 불가능했던 레벨의 데이터 수집과 조인을 가능케함

-> 디지털 빅브라더의 탄생이 가능

 

- EU의 경우 선도적으로 많은 부분에서 규제장치를 도입

* 검색엔진 쿼리의 경우 개인관련 정보(IP주소, 브라우저 쿠키 정보)를 6개월 이상 저장하지 않도록 권고

 

ex) 개인화된 검색어 자동완성의 문제점

 

 

빅데이터공부하기 14. 빅데이터문제점

 

 

+ Recent posts