실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

Bioinformatics - DNA 분석


인간의 유전체는 총 30억쌍. 1인당 DNA 정보는 대략 120GB.

하둡을 기반으로 DNA분석과 비교를 해주는 회사들이 등장하기 시작
Cloudburst, Crossbow, Hadoop-BAM, ...
한국에서는 얼마전에 SDS에서도 서비스를 발표.

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

Netflix 영화 추천 


25M+ subscriber, 30M movie play per day, 4M rating per day, 3M searches a day, 2B hours streamed in Q4 2011
75% 영화감상이 영화 추천에 기반함.

Markov chain기반의 알고리즘
거대 NxN 행렬 계산.
처음에는 RDBMS기반으로 일주일에 한번 주말에 실행.
Hadoop 도입이후 지금은 매일 한번씩 계산.
성능상의 이유로 Netflix Prize 우승 알고리즘은 사용못함.





 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

성공 스토리들

 


Fraud Detection

Bank of America, Chase등의 은행은 과거 신용카드의 과거 트랜잭션 데이터들을 바탕으로 fraud detection 모델을 빌딩.

모든 트랜잭션은 fraud detection 모델을 거침.

모델 빌딩은 빅데이터 시스템의 도움없이는 불가능.
충분한 데이터의 수집.
주기적인 모델의 빌드를 가능.
빠른 실험과 테스트가 가능 (개발기간의 단축)




 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

데이터 마이닝 – Data Scientist
 


일단 시스템이 구성되고 나면 누군가 데이터에서 새로운 가치와 의미를 찾아야함.
Data Scientist의 몫
수학/통계 지식 (모델링)
프로그래밍 스킬
데이터분석에 대한 열정과 비지니스에 대한 이해.
Mahout, R 등이 널리 쓰임




 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

빅데이터 R-Hadoop 실무과정] 빅데이터 / 신규교육실습자료

2016.08.14. 09:42 수정 삭제

복사 http://blog.naver.com/zeusmale1/220787244081

통계보기 번역하기 전용뷰어 보기

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

데이터 Visualization
 


데이터를 어떻게 보기쉽고 이해하기 쉽고 멋있게 보여줄 수 있을까? InfoGraphics

어떤 데이터를 분석할때 처음 시작 작업은 다양한 형태로 그 데이터의 분포나 패턴을 그려보는 것이 중요
데이터분석의 시작은 필요한 데이터가 수집되고 있는지 수집상에 오류는 없는지 검증하는 것 (data clean-up)
패턴 혹은 아웃라이어의 존재 여부 검증



 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

웍플로우 실행 및 관리


계속적으로 발생하는 데이터의 처리를 위해 처리작업들의 실행이 자동화되어야함
복잡한 ETL 작업의 경우 수십개의 job들의 chaining이 필요.
주기적으로 혹은 데이터가 특정 위치에 생기면 특정 Job을 시작하게 하는 메커니즘이 필요. 즉, 웍플로우 관리가 필요.

몇개의 오픈소스 프로젝트가 널리쓰임.
Oozie, Cascading, Azkaban, Hamake, ...

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

데이터저장과 처리


대부분의 빅 데이터 시스템에서 이 역할을 하는 것은 바로 하둡.
데이터의 저장소이자 프로세싱 브레인.
이 강의의 핵심.
프로세싱을 위해서 여러가지 언어가 만들어짐
Java MapReduce, Hive, Pig, Streaming, Pipe, ...
하둡을 기반으로한 생태계가 만들어지고 있으며 많은 회사들이 관련 소프트웨어/서비스를 만들고 있음
IBM, EMC/Greenplum, EMC/VMWare, Amazon, Microsoft, SAS, SAP, Cloudera, HortonWorks, MapR, ...


 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

 

 

데이터저장과 처리


대부분의 빅 데이터 시스템에서 이 역할을 하는 것은 바로 하둡.
데이터의 저장소이자 프로세싱 브레인.
이 강의의 핵심.
프로세싱을 위해서 여러가지 언어가 만들어짐
Java MapReduce, Hive, Pig, Streaming, Pipe, ...
하둡을 기반으로한 생태계가 만들어지고 있으며 많은 회사들이 관련 소프트웨어/서비스를 만들고 있음
IBM, EMC/Greenplum, EMC/VMWare, Amazon, Microsoft, SAS, SAP, Cloudera, HortonWorks, MapR, ...


 

 

 

 

실무개발자를위한 실무교육 전문교육센터학원
www.oraclejava.co.kr에 오시면 보다 다양한 강좌를 보실 수 있습니다.

+ Recent posts