빅데이터 하둡 프로그래밍 교육과정 ]데이터수집
빅데이터 하둡 프로그래밍 교육과정 ]데이터수집
실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.
데이터수집
■ 빅데이터의 시작은 데이터를 수집하여 처리할 수 있는 장소로 올리는 것!
■ 데이터의 용량이 큰 경우 데이터의 수집자체가 큰 문제.
- 네트웍을 타고 업로드하는 자체가 오랜 시간이 걸림. 많은 경우 데이터발생소스와 하둡을 같은 데이터센터에서 고속네트웍으로 연결
■ 몇가지 오픈소스 솔루션이 많이 쓰임
- Flume: Cloudera에서 만들어서 지금 Apache 오픈소스.
- Chukwa: Apache 오픈소스
- 기본적으로 분산환경을 기반으로 여러대의 데이터소스로부터 데이터를 받아다가 계층구조 형태로 머징하는 형태의 구조를 갖고 있으며 데이터 푸시보다는 데이터 풀링을 많이 사용.
'빅데이터 > 빅데이터Hadoop' 카테고리의 다른 글
빅데이터 하둡 프로그래밍 교육과정 ]웍플로우 실행 및 관리 (0) | 2017.01.13 |
---|---|
빅데이터 하둡 프로그래밍 교육과정 ]데이터저장과 처리 (0) | 2017.01.13 |
빅데이터 하둡 프로그래밍 교육과정 ]몇가지 교훈들 (0) | 2017.01.12 |
빅데이터 하둡 프로그래밍 교육과정 ] 야후 검색팀의 예 (하둡성숙기) (0) | 2017.01.12 |
빅데이터 하둡 프로그래밍 교육과정 ]야후 검색팀의 예 (하둡도입초반) (0) | 2017.01.12 |