빅데이터공부하기 13-2 빅데이터성공스토리

 

지난글에 이어 빅데이터공부하기 13-2 번째 글을 올리도록 하겠습니다.

이번글도 마찬가지로 빅데이터 성공스토리에 대해서 알아보겠습니다.

 

Bioinformatics - DNA 분석

- 인간의 유전체는 총 30억쌍. 1인당 DNA 정보는 대략 120GB.

- 하둡을 기반으로 DNA분석과 비교를 해주는 회사들이 등장하기 시작

* Cloudburst, Crossbow, Hadoop-BAM, ...

* 한국에서는 얼마전에 SDS에서도 서비스를 발표

 

Trulia

- 부동산 가격 및 예측 사이트. 2006년 설립된 샌프란시스코 기반의 스타트업

   013년 나스닥 상장)

 

- 부동산세 정보와 부동산 판매가격을 계속적으로 수집/ 조인하여 가격을 예측.

* 처음에는 이 프로세스를 MySQL로 구현. 미국전체 데이터를 돌리는데

   일주일 걸림.

* Hadoop으로 포팅후 7시간으로 단축. 다양한 실험이 가능해짐.

 

Yahoo

 

 

- 검색어 자동완성 데이터베이스가 하둡을 이용해 빌딩됨.

* 3년치의 로그 데이터

* 20여개의 MapReduce job들이 데이터베이스를 빌딩.

 

 

 Before Hadoop

After Hadoop 

시간 

26일 

20분

개발언어

C++

Python

개발시간

2~3주

2~3일

여기까지 빅데이터공부하기 13-2번째글 빅데이터 성공스토리에 대해 글을 올렸습니다.^^

오늘하루도 멋지게 승리하길 바랍니다. ^^

모든 분들 파이팅!!!

 

 

빅데이터공부하기 13-2 빅데이터성공스토리

 

 

빅데이터공부하기 13-1 빅데이터성공스토리

 

빅데이터공부하기 13번째글의 1번째이야기를 해볼까 합니다.

빅데이터 성공스토리를 함께 알아보도록 하겠습니다.

 

Fraud Detection

- Bank of America, Chase등의 은행은 과거 신용카드의 과거 트랜잭션 데이터들을 바탕으로 fraud detection 모델을 빌딩.

 

- 모든 트랜잭션은 fraud detection 모델을 거침.

 

- 모델 빌딩은 빅데이터 시스템의 도움 없이는 불가능

* 충분한 데이터의 수집

* 주기적인 모델의 빌드를 가능

* 빠른 실험과 테스트가 가능(개발기간의 단축)


 

Netflix 영화 추천

 

- 25M+subscriber, 30M movie play per day, 4M rating per day, 3M searches a day,

  2B hours streamed in Q4 2011

* 75% 영화감상이 영화 추천에 기반함.

 

- Markov chain기반의 알고리즘

* 거대 NxN 행렬 계산.

* 처음에는 RDBMS기반으로 일주일에 한번 주말에 실행.

* Hadoop 도입이후 지금은 매일 한번씩 계산.

* 성능상의 이유로 Netflix Prize 우승 알고리즘은 사용못함.

 

 

여기까지 빅데이터공부하기 13-1 의 글을 마무리 하겠습니다.

다음 글에서도 빅데이터 성공스토리에 대해 글을 올리겠습니다. ^^

그럼 ~~ 다음글에서 또 만나요~~ !

 

** 잠깐만!!!

우~~리함께 한번 보아요!!

빅데이터 오프라인 강좌 ----> 클릭을 눌러주세요 ^^ **

 

 

빅데이터공부하기 13-1 빅데이터성공스토리

 

 

 

빅데이터공부하기 12 - 데이터 마이닝[Data Scientist]

 

주말 잘 보내셨나요??

오늘하루도 힘차게 보내시구요. 빅데이터공부하기 12번째 글을

시작해보겠습니다.

이번 빅데이터 공부하기의 주제는 데이터마이닝 - Data Scientist

입니다.

 

Data Scientist

- 일단 시스템이 구성되고 나면 누군가 데이터에서 새로운 가치와 의미를 찾아야합니다.

 

- Data Scientist의 몫

* 수학 / 통계 지식 (모델링)

* 프로그래밍 스킬

* 데이터분석에 대한 열정과 비지니스에 대한 이해

 

- Mahout, R 등이 널리쓰임

 

 

빅데이터의 오프라인 강좌를 원하신다면 클릭을 눌러주세요 ^0^

앞으로도 많은 글 올려드릴테니 많이 방문하시고 도움받고 가시길 바래요 ^^

 

 

빅데이터공부하기 12 - 데이터 마이닝[Data Scientist]

빅데이터공부하기 11 - 데이터 Visualization

 

빅데이터공부하기 11번째글입니다.

이번글은 데이터 Visualization입니다. 간단하게 보고 가실께요 ^-^

 

데이터 Visualization

 

- 데이터를 어떻게 보기쉽고 이해하기 쉽고 멋있게 보여줄수 있을까요??

* InfoGraphics

 

- 어떤 데이터를 분석할 때 처음 시작 작업은 다양한 형태로 그 데이터의 분포나 패턴을

   그려보는 것이 중요합니다.

* 데이터분석의 시작은 필요한 데이터가 수집되고 있는지 수집상에 오류는 없는지 

  검증하는 것입니다. (data clean-up)

* 패턴 혹은 아웃라이어의 존재 여부 검증

 

 

여기까지 빅데이터공부하기 11번째 글이였습니다. ^-^

 

 빅데이터 오프라인 강좌 ---> www.oraclejava.kr 로 확인해보세요!! 

빅데이터공부하기 11 - 데이터 Visualization

 

C#공부하기 12 - 축어적문자열표기법

 

C#공부하기 12번째 글입니다. 이번글은 축어적문자열표기법에 대해서 글을 올리겠습니다.

오늘 하루는 맑음이네요 ^^ 오늘 제 티스토리 블로그에 방문해 주신 모든 분들의 마음에도 및이 찾아왔으면 좋겠어요 ^^

 

C#공부하기 12번째 - 축어적문자열표기법시작할께요 ^^

 

축어적문자열표기법(@를 "앞에 붙이는 것입니다.)

 

C#에서는  \(역슬레시)는 이스케이프시퀀스라고 해서 다른 의미를 가집니다.

그런데 문자열앞에 @를 붙이면 \이 말그대로 \이 됩니다.

주로 Path를 설정하는데 사용됩니다.

 

ex) string path= @"C:\windows\system";

//@ㄹ를 붙이지 않으면 \\ 으로 사용해야 합니다.

 

또한 복수행의 문장을 사용할 때도 사용할 수 있습니다.

예를 보겠습니다.

string multiLineString= @"아늘을 우러러 한 점 부끄럼 없기를 " ;


 

 

C#공부하기 12 - 축어적문자열표기법

여기까지입니다. ^^

C#오프라인 강좌는 www.oraclejava.co.kr로 방문하시어 확인해보세요 ^---^

 

오늘하루도 파이팅!!!

 

 

 

WPF공부하기 9 - 주석 (comment)

 

WPF공부하기 9번째 글입니다.^^ 오늘은 주석(comment)에 대해 글을 올리겠습니다.

인천에 우박이 떨어졌다고 하네요.. 다들 조심하세요~~ 어제오늘 날씨가 좋지를 않네요 ..

 

구럼 WPF공부하기 9번째 글을 시작해보겠습니다.

 

주석 (comment)

 

- 단인라인 주석 : //

stmt1 ;        // 이건주석입니다.

stmt2 ;

 

- 다중라인 주석 : /*    */

stmt1 ;         /* 여기서부터 주석입니다.

stmt2 ;        여기도 계속 주석....

여기까지 주석 */        

stmt3;

 

- XML 주석 : ///

* 컴파일 할 때, XML 문서를 생성하라고 명령 할 수 있습니다.

   이 XML문서를 생성할 때 사용되는 부분을 주석으로 처리할 수 있다.

* 예)

  ///<summary>

 /// Summary description for Class1.

 ///</summary>

 

 

 

WPF공부하기 9 - 주석 (comment)

 

wpf 오프라인 교육과정을 원하신다면 ----> 클릭!!!

 

 

빅데이터공부하기 10 - 결과 데이터의 액세스

 

빅데이터공부하기 10번째 글입니다.

오늘은 비가 많이 오네요 .. 이런날은 카페에서 커피한잔을 마시며 공부를... 하핫 이런 말 하면 꼭 공부못하는 사람이 폼만 잡는다하죠... ^^;;

우리는 그냥 집에서 열심히하자구요 ㅋㅋ

빅데이터공부하기 10번째 글 결과 데이터의 액세스에 대해 글을 올리겠습니다.

 

결과 데이터의 액세스

 

- 하둡으로 처리된 데이터는 어떤 형태로건 바깥에서 액세스가 필요합니다.

 

- 3가지 정도의 패턴이 존재합니다.

* RDBMS에 저장.

- 작은 크기 데이터에 접합합니다.

   ex) 리포트

 

* NoSQL에 저장

- HBase, Cassandra, MongoDB 등...

- 이 경우 데이터 크기에 관계없이 액세스 가능.

   Ad-hoc 분석을 위한 방법도 제공

 

* Search Engine에 저장

- Lucene, Solr, ElasticSearch 등....

 

여기까지 !! 빅데이터공부하기 10번째 글 끝!!! 다음 글에서 또만나요 ^-^

 

 

빅데이터 오프라인 강의를 원하시는 분들은 ↑↑ 을 클릭해주세요 ^^

 

감사

 

 

빅데이터공부하기 10 - 결과 데이터의 액세스

빅데이터공부하기 9] 웍플로우 실행 및 관리

 

이번 빅데이터공부하기 9번째 글은 웍플로우 실행 및 관리에 대해서 올립니다.

빅데이터공부하시는 분들 !!! 아자아자!! 파이팅하자구요 ^----^

 

그럼 빅데이터공부하기 9번째 글을 써보도록 할께요..

 

웍플로우 실행 및 관리

 

- 계속정으로 발생하는 데이터의 처리를 위해 처리작업들의 실행이 자동화되어야함

* 복잡한 ETL 작업의 경우 수십개의 job들의 chaining이 필요

 

* 주기적으로 혹은 데이터가 특정 위치에 생기면 특정 Job을 시작하게 하는

   메커니즘이 필요. 즉, 웍플로우 관리가 필요.

 

 

- 몇개의 오픈소스 프로젝트가 널리쓰임.

* Oozie, Cascading, Azkaban, Hamake, ...

 

 

빅데이터공부하기 9] 웍플로우 실행 및 관리

 

잠깐만요 !!

빅데이터RHADOOP 오프라인 강좌를 원하신다면!!

클릭을 눌러주세요^^

 

 

 

+ Recent posts