실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

빅데이터 시스템의 구성

빅데이터의 시작은 데이터를 수집하여 처리할 수 있는 장소로 올리는 것!
데이터의 용량이 큰 경우 데이터의 수집자체가 큰 문제.
네트웍을 타고 업로드하는 자체가 오랜 시간이 걸림. 많은 경우 데이터발생소스와 하둡을 같은 데이터센터에서 고속네트웍으로 연결
몇가지 오픈소스 솔루션이 많이 쓰임
Flume: Cloudera에서 만들어서 지금 Apache 오픈소스.
Chukwa: Apache 오픈소스
기본적으로 분산환경을 기반으로 여러대의 데이터소스로부터 데이터를 받아다가 계층구조 형태로 머징하는 형태의 구조를 갖고 있으며 데이터 푸시보다는 데이터 풀링을 많이 사용. 


 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

몇가지 교훈들

대용량 데이터 중앙수집의 어려움
빅데이터 처리를 위해서는 그 빅데이터를 한군데로 모으는 것이 시작인데 여러가지 어려움이 존재.
소프트웨어 변경이 필요하며 여러 유관팀의 도움이 필요.
성공스토리의 필요성
성공스토리가 있어야 보다 더 많은 팀의 adoption이나 매니지먼트의 지원을 끌어낼 수 있음.
ROI를 고려
데이터가 있다고 무작정 그걸 처리하려고 하기 보다는 무엇을 할 것인지 그게 리턴이 있을지 먼저 고려. 빅 데이터 처리 시스템을 만드는 것은 많은 시간과 비용이 들어간다는 점을 명심.
데이터 접근 민주화의 중요성
그전에는 샘플조차 얻기 힘들던 데이터들이 접근도 되고 그걸 쉽게 처리할 수 있는 시스템까지 제공되자 크고 작은 이노베이션들이 쏟아져 나옴.


 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

야후 검색팀의 예 (하둡성숙기)

몇개의 하둡 성공 스토리 이후 하둡팀이 전사적인 조직으로 확대 (Platform 그룹).
2011년 HortonWorks라는 회사로 스핀오프.
미디어 팀들을 포함한 거의 모든 팀들이 사용하기 시작
하둡이 일종의 corporate-wide 데이터 저장소로 변신 ->  Web Of Object 프로젝트.
4개의 하둡 클러스터 존재.
조직별, 리서치용 vs. 프로덕션용


 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

야후 검색팀의 예 (하둡도입초반)

2006년초 Doug Cutting을 영입하여 하둡 도입을 실험. 20노드 하둡 클러스터 셋업.
2008년 1000+ 노드 하둡 클러스터를 셋업
웹페이지 그래프 계산을 하둡으로 포팅
2009년 30여개 마켓의 모든 검색어를 하둡에 저장하고 처리.
웹페이지 classification이나 Machine Learned Ranking등의 모델 빌딩에 하둡 클러스터 사용


 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

Big data 실무 강좌 자료] Reflection의 실제 구현 빅데이터 / 신규교육실습자료

2016.07.31. 10:46 수정 삭제

복사 http://blog.naver.com/zeusmale1/220775975585

통계보기 번역하기 전용뷰어 보기

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

하둡이란?

Doug Cutting이 구글랩에서 발표한 두개의 논문에 기반해 2005년 만든 오픈소스 프로젝트
2003년 The Google File System.
2004년 MapReduce: Simplified Data Processing on Large Cluster.
처음 시작은 Nutch라는 오픈소스 검색엔진의 하부 프로젝트.
하둡은 Doug Cutting의 아들의 코끼리 인형의 이름.
2006년에 아파치 톱레벨 별개 프로젝트로 떨어져나옴.
크게 분산파일시스템인 HDFS와 분산처리시스템인 MapReduce 두개의 컴포넌트로 구성됨.


 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

야후 검색팀의 예 (하둡 사용전)

크롤,색인,그래프 생성을 위해서 조금씩 다른 자체개발
   소프트웨어들을 사용.
중복투자 및 유지보수의 문제.
세가지 모두 일종의 분산처리시스템으로 자기가 하는 일에 최적화
   되었지만 많은 부분에 공통점들이 존재.
야후밖에서 전혀 쓸모가 없음
개인의 스킬셋 제약 및 Hiring 관점에서도 문제.

검색로그의 경우 용량 문제로 데이터의 전수조사 불가.
마이닝시 샘플링에 의존.
데이터 액세스 자체가 쉽지 않았음.
이것 역시 복잡한 승인 프로세스로 시간이 걸렸음.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

웹서버 로그

웹서비스 회사의 경우 대규모의 사용자 로그 생성
세션 레벨 분석이 중요
세션: “한 사용자의 일련의 페이지 방문”
이를 통해 어떤 서비스의 유입패턴등의 분석 가능
쇼핑 사이트의 예:
구글에서 검색을 통해 들어오는 트래픽에서 가장 많은 돈을 벌어다주는 검색어는 무엇인가?
이쪽의 최강자는 Splunk

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

소설 네트웍 데이터

트위터, 페이스북 등의 소셜 미디어에서 만들어내는 데이터
트위터의 예: 1억 4천만명의 사용자와 하루 3억 4천만개의 트윗 (2012년 6월 기준)
비지니스 분야에서 굉장히 유용하게 활용가능한 데이터
새로운 마케팅 및 광고 타케팅의 기본 데이터

 



 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

+ Recent posts