빅데이터공부하기 13-2 빅데이터성공스토리

 

지난글에 이어 빅데이터공부하기 13-2 번째 글을 올리도록 하겠습니다.

이번글도 마찬가지로 빅데이터 성공스토리에 대해서 알아보겠습니다.

 

Bioinformatics - DNA 분석

- 인간의 유전체는 총 30억쌍. 1인당 DNA 정보는 대략 120GB.

- 하둡을 기반으로 DNA분석과 비교를 해주는 회사들이 등장하기 시작

* Cloudburst, Crossbow, Hadoop-BAM, ...

* 한국에서는 얼마전에 SDS에서도 서비스를 발표

 

Trulia

- 부동산 가격 및 예측 사이트. 2006년 설립된 샌프란시스코 기반의 스타트업

   013년 나스닥 상장)

 

- 부동산세 정보와 부동산 판매가격을 계속적으로 수집/ 조인하여 가격을 예측.

* 처음에는 이 프로세스를 MySQL로 구현. 미국전체 데이터를 돌리는데

   일주일 걸림.

* Hadoop으로 포팅후 7시간으로 단축. 다양한 실험이 가능해짐.

 

Yahoo

 

 

- 검색어 자동완성 데이터베이스가 하둡을 이용해 빌딩됨.

* 3년치의 로그 데이터

* 20여개의 MapReduce job들이 데이터베이스를 빌딩.

 

 

 Before Hadoop

After Hadoop 

시간 

26일 

20분

개발언어

C++

Python

개발시간

2~3주

2~3일

여기까지 빅데이터공부하기 13-2번째글 빅데이터 성공스토리에 대해 글을 올렸습니다.^^

오늘하루도 멋지게 승리하길 바랍니다. ^^

모든 분들 파이팅!!!

 

 

빅데이터공부하기 13-2 빅데이터성공스토리

 

 

+ Recent posts