빅데이터공부하기 23. HDFS 개요

 

이번 23번째 빅데이터공부하기의 글은 HDFS의 개요입니다. ^^

 

빅데이터공부는 " ORACLEJAVA IT공부하자 " 티스토리 많이 애용해주세요

 

 

HDFS 개요

- 2003년 구글랩에서 발표된 The Google Filesystem이란 논문을 바탕으로 작성된 파일시스템.

 

- 이 시스템의 특징

* 파일을 여러개의 블록으로 나눠 저장 (기본 64MB)

* 하드웨어 고장에 견고

- 한 데이터블록을 보통 3군데 (Replication factor)에 저장하며 저장시 같은 rack에 있는 서버들에 두 개에 저장하고 다른 하나는 다른 rack에 있는 서버에 저장

 

* Write Once ReadMany

- Append작업은 가능하지만 내용을 바꾸기 위해서는 파일 전체를 새로 써야한다.

 

* 스트리밍 데이터 액세스

-  배치잡에 최적화

 

* MapReduce나 HBase와 같은 시스템의 기본구성블록으로 사용

* 계층구조의 파일시스템을 제공

 

 

 

빅데이터공부하기 23. HDFS 개요

 

빅데이터공부하기 22. 하둡공부

 

22번째 글입니다. 빅데이터공부하기 많은 애용바랍니다. ^^

 

 

빅데이터 온라인으로 공부가 힘드실 경우는 오프라인 강좌를

오라클자바교육센터에서 운영하고 있습니다.

 참고하시어 많은 신청바랍니다. ^---^

 

 

 

하둡 사용회사들

 

- http://wiki.apache.org/hadoop/PoweredBy/

 

- 대표적 회사들

국외: Facebook, Twitter, EBay, Linkedin, Yahoo, ...

국내: NHN, NCsoft, SDS

추세는 점점 빅데이터 하둡을 사용하고 있는 회사가 늘고 있습니다.

 

하둡의 문제점

 

- 너무나도 많은 버전과 부실한 서포트

* 3rd Party 배포판이 인기가 높은 이유..

 

- 셋업과 사용이 쉽지 않음

* 비용 / 시간이 들며 맞는 스킬셋을 가진 사람의 고용도 쉽지 않음.

 

- 하둡에 맞지 않는 작업도 존재

* 소규모이거나 대용량의 데이터처리가 필요하지 않다면 하둡으로 옮겨갈 이유가 없음..

 

빅데이터공부하기 21. 작업모델

 

21번째 빅데이터공부하기입니다.

 

하둡에대해서 계속계속 공부를 하도록 하겠습니다. 모두들 파이팅!!

 

 

작업모델

 

하둡자체는 아파치 소프트웨어 재단의 소유물

* 아파치 재단은 비영리조직

 

 

4가지 형태의 contribution이 가능

* 사용자(대부분)

* 컨트리뷰터 : 패치생성, 버그리포트, 문서 작성, ...

* 커미터 : 컨트리뷰터의 작업 반영 여부 결정.

* 프로젝트 관리 커미티 (PMC - Project Management Committee)

  : 새 릴리스와 커미터 선정 투표

 

 

 

하둡의 오프라인 강좌는 ---> 클릭을 눌러주세요 ^^

 

 

빅데이터공부하기 21. 작업모델

빅데이터공부하기 21. 하둡공부

 

주말 다들 잘 보내셨나요?? 이번주간도 힘차게 공부를 시작해보겠어요!!

이번 빅데이터공부하기 21번째글은 하둡에 대하여 공부를 해볼건데요.

첫번째는 Job Market에서의 하둡수요증대와 두번째는 하둡자격증에대해서

알아볼거에요^^

 

 

오라클자바교육센터와 함께하는 it공부하기 !! 시작해볼께요 ^^

 

1. Job Market에서의 하둡 수요 증대

- Hadoop Job trend from lndeed.com

Hadoop Job Trends

 

 

 

 

2. 하둡 라이센스

 

아파치 라이센스를 준수

- 무료 소프트웨어 라이센스

- 누구든 코드를 갖고 내부적으로 사용하거나 재배포하거나 심지어 파는

   것까지도 가능

- 단 Attribution이 필요함.

 

 

빅데이터공부하기 21. 하둡공부

 

 

빅데이터공부하기 20 하둡배포판

 

빅데이터공부하기 20번째글은 하둡배포판에 대해서 공부를 해보겠습니다.

 

 

 

 

하둡배포판

 

- 아파치재단(Apache Foundation)이 제공하는 하둡은 0.10버전부터 시작해서 현재 0.23까지 나와있으면 이중 일부 버전은 1.0과 2.0의 메이저버전으로 존재합니다.

 

- 지금 현재 액티브하게 개발되고 있는 버전들은 다음과 같습니다.

* 2.x.x: 현재 베타전(0.23.x기반)

* 1.x:현재 안정버전(0.22.x기반)

 

- 뒤에서 랩세션에서는 1.0.3의 하둡을 사용할 것입니다.

 


 

 

3rd 파티 하둡 배포판

 

- 대표적으로 클라우데라(Cloudera)나 홀튼웍스(HortonWorks),MapR등의 회사도 하둡배포판을 만듬

 

- 참고로 클라우데라의 배포판들은 http://www.cloudera.com/hadoop/ 에서 더 자세한 사항을 볼 수 있는데 실질적으로 가장 많이 사용되는 배포판이며 흔히 CDH라 부릅니다.

 

- 홀튼웍스의 배포판은 폴튼웍스 데이터 플랫폼이라 불리우며 HDP라 부르기도 합니다.

http://hortonworks.com/products/hortonwoksdataplatform/ 에서 다운로드 가능

 

- 둘다 역시 오픈소스이며 개인이 사용할 경우 무료이다.

 

- MapR의 배포판은 AWS의 ElasticMapReduce에서 사용

 

- VMWare가 가상화버전의 Hadoop을 발표 (2012 Hadoop Summit)-ProjectWerengeti

 

 

 

빅데이터공부하기 20 하둡배포판

 

빅데이터 공부하기 19 하둡의 발전

 

19번째글입니다. 빅데이터 공부하기 이번글은 하둡에 발전에 대해서 간략하게 공부해볼께요 ^^

 

 

 

 

하둡의 발전

 

- 2005년 Doug Cutting이 Nutch 크롤/검색패키지에 구글페이퍼를 기반으로한

   HDFS/MapReduce 프레임웍을 추가하면서 시작.

 

- 2006년 Hadoop이 Nutch에서 떨어져나와 아파치 톱레벨 프로젝트로 변신

 

- 2008년 야후에서 1000 노드 하둡클러스터를 프로덕션에서 사용시작

 

- 2012년 현재 하둡 생태계가 활발히 커가고 있음

* 컨퍼런스 Hadoop Summit, Hadoop World

* 많은 종류 하둡기반 혹은 변방 소프트웨어들과 스타트업들

 

 

 

빅데이터 공부하기 19 하둡의 발전

빅데이터공부하기18 하둡의 특징

 

빅데이터공부하기18번째글 ...

하둡의 특징에 대하여 공부해볼까요..^^

오늘 너무 더워요 ㅠㅠ

다들 선크림 꼭꼭 챙겨 바르세요 ^^

 

 

 

하둡의 특징

 

데이터가 있는 곳으로 코드를 이동

- 대부분의 경우 데이터의 크기가 더 크다.

 

스케일 아웃(vs. 스케일 업)

- 소수의 비싼 서버 보다는 다수의 저렴한 서버 사용

 

단순한 데이터 모델

- 반복적인 Key/Value pair의 트랜스포메이션.

- 데이터의 locality를 최대한 이용한 프로그래밍 모델

 

오프라인 배치 프로세싱에 최적화

 


 

(Hadoop 1.0 기준)

기본적으로 하나의 마스터와 다수의 슬레이브로 구성된 마스터/ 슬레이브 아키텍쳐를 HDFS와 MapReduce 모두에 적용

 

HDFS

- 하나의 Name Node(마스터)와 하나 이상의 Data Nodes(슬레이브)

- Secondary NameNode가 존재하여 주기적으로 Name Node의 내용을 백업(snapshot)

 

MapReduce

- 하나의 Job Tracker(마스터)와 하나의 Task Trackers(슬레이브)

 

대부분의 경우 이 둘은 한 물리적인 클러스터에 공존

- Name Node/Job Tracker가 같이 살고 Data Node/Task Tracker가 같이 동거

 

 

 

빅데이터공부하기18 하둡의 특징

 

빅데이터공부하기 17 하둡 ?!

 

빅데이터공부하기 17번째글은 하둡에 대해 소개를 해드리도록 하겠습니다.

오늘하루도 아자자!!! ^^

 

 

 

 

하둡소개

 

하둡은 대용량의 데이터를 분산처리해줄 수 있도록 해주는 아파치톱레벨 오픈소스

프로젝트입니다.

- http://hadoop.apache.org

 

- 순전히 소프트웨어 프레임웍이며 자바로 작성

 

- Nuch/Lucene프로젝트 서브컴포넌트로 시작하여 2006년에 독립프로젝트로 분리

 

- 크게 분산파일시스템(HDFS)과 분산처리시스템(MapReduce)으로 구성

* 이밖에도 하둡커몬 (Common)이라고 위의 두 시스템에서 모두 필요한

   라이브러리들도 하둡의 일부

 

 

다음글에서는 하둡의 특징에 대해서 공부할꼬에요~~ ^^

매일매일 열심히 공부!! 아자자!!!

 

 

빅데이터공부하기 17 하둡 ?!

+ Recent posts