빅데이터 하둡 프로그래밍 교육과정 ]데이터수집




빅데이터 하둡 프로그래밍 교육과정 ]데이터수집

실무개발자를위한 실무교육 전문교육센터학원

www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.


데이터수집


■ 빅데이터의 시작은 데이터를 수집하여 처리할 수 있는 장소로 올리는 것! 


■ 데이터의 용량이 큰 경우 데이터의 수집자체가 큰 문제.

  - 네트웍을 타고 업로드하는 자체가 오랜 시간이 걸림. 많은 경우 데이터발생소스와 하둡을 같은 데이터센터에서 고속네트웍으로 연결


■ 몇가지 오픈소스 솔루션이 많이 쓰임

  - Flume: Cloudera에서 만들어서 지금 Apache 오픈소스.

  - Chukwa: Apache 오픈소스 

  - 기본적으로 분산환경을 기반으로 여러대의 데이터소스로부터 데이터를 받아다가 계층구조 형태로 머징하는 형태의 구조를 갖고 있으며 데이터 푸시보다는 데이터 풀링을 많이 사용. 



+ Recent posts