빅데이터공부하기 7 -데이터수집

 

빅데이터공부하기 7번째 글에서는 빅데이터 시스템의 구성에 대해 알아볼건데요.

이번글은 데이터수집에 대해서 글을 올리겠습니다. ^^

 

데이터수집

- 빅데이터의 시작은 데이터를 수집하여 처리할 수 있는 장소로 올리는 것입니다.

 

- 데이터의 용량이 큰 경우 데이터의 수집자체가 큰 문제입니다.

* 네트웍을 타고 업로드하는 자체가 오랜 시간이 걸립니다.

   많은 경우 데이터발생소스와 하둡을 같은 데이터센터에서 고속네트웍으로 연결

 

- 몇가지 오픈소스 솔루션이 많이 쓰입니다.

* Flume : Cloudera에서 만들어서 지금 Apache 오픈소스.

* Chukwa : Apache 오픈소스

* 기본적으로 분산환경을 기반으로 여러대의 데이터소스로부터 데이터를 받아다가 계층구조 형태로 머징하는 형태의 구조를 갖고 있으며 데이터 푸시보다는 데이터 풀링을 많이 사용합니다.

 

다음글에서는 데이터 저장과 처리에 대해 글을 올리겠습니다.

빅데이터공부하기!! 빅데이터공부하시는분들 모두들 파이팅하세요!!

 

 

* 빅데이터 오프라인 교육입니다.

빅데이터 RHADOOP 실무과정 환급과정입니다.

원하시는 분들은 교육과정명을 클릭해보세요 ^^

 

 

빅데이터공부하기 7 -데이터수집

+ Recent posts