[빅데이터공부하기 6] 야후 검색팀의 예

 

빅데이터공부하기 6번째 글입니다.

야후 검색팀의 예 하둡 사용전과 하둡도입초반에 대해서 알아보도록하겠습니다.

 

 

야후 검색팀의 예 - 하둡 사용전

크롤,색인, 그래프 생성을 위해서 조금씩 다른 자체개발 소프트웨어들을 사용.

중복투자 및 유지보수의 문제

 

세가지 모두 일종의 분산처리시스템으로 자기가 하는 일에 최적화되었지만 많은 부분에 공통점들이 존재.

 

야후밖에서 전혀 쓸모가 없음

개인의 스킬셋 제약 및 Hiring관점에서도 문제가됨.

 

검색로그의 경우 용량 문제로 데이터의 전수조사 불가.

마이닌시 샘플링에 의존

 

데이터 엑세스 자체가 쉽지 않았음.

이것 역시 복잡합 승인 프로세스로 시간이 걸려있음.

 

 

야후 검색팀의 예 - 하둡도입초반

2006년 초 Doug Cutting을 영입하여 하둡 도입을 실험. 20노드 하둡 클러스터 셋업.

2008년 1000+ 노드 하둡 클러스터를 셋업

- 웹페이지 그래프 계산을 하둡으로 포팅

2009년 30여개 마켓의 모든 검색어를 하둡에 저장하고 처리.

웹페이지 classification이나 Machine Learned Ranking등의 모델 빌딩에 하둡 클러스터 사용

 

여기까지 빅데이터공부하기 6번째 글을 올렸습니다.

다음글에서는 하둡성숙기에 대해서 기재하도록 하겠습니다.^^

 

 

 

★ 빅데이터 과정 오프라인교육보러가기 아래그림 클릭!! ★ 

[빅데이터공부하기 6] 야후 검색팀의 예

 

 

 

 

 

 

[빅데이터공부하기 5] 하둡이란?

 

빅데이터공부하기 5번째글입니다. 하둡에대해서 간단하게 설명드리려합니다. ^^

ORACLEJAVA it공부하기 티스토리에 오시어서 꼭!! 도움받고 가셨으면 좋겠네요..하핫 하핫 하핫

 

그럼 시작하겠습니다.

 

하둡이란 ?

 

Doug Cutting이 구글랩에서 발표한 두개의 논문에 기반해 2005년 만든 오픈소스 프로젝트

 

2003년 The Google File System.

2004년 MapReduec: Simplified Data Processing on Lage Cluster.

 

처음시작은 Nutch라는 오픈소스 검색엔진의 하부 프로젝트.

하둡은 Doug Cutting의 다들의 코끼리 인형의 이름입니다.

2006년에 아파치돕레벨별개 프로젝트로 떨어져나옵니다.

 

크게 분산파일시스템인 HDFS와 분산처리시스템인 MapReduce 두개의 컴포넌트로 구성됩니다.

 

 

 

[빅데이터공부하기 5] 하둡이란?

[빅데이터공부하기 4] 웹서버 로그

 

빅데이터공부하기 4번째 글입니다.

이번글은 웹서버 로그에 대하여 올립니다. ^=^ 다들 퐈이팅하자구요!!!

 

웹서버 로그

 

* 웹 서비스 회사의 경우 대규모의 사용자 로그 생성

 

* 세션 레벨 분석이 중요

 

[세션이란?? 잠깐보시면]

- 세션 : 한 사용자의 일련의 페이지 방문

- 이를 통해 어떤 서비스의 유입패턴등의 분석 가능

 

* 쇼핑 사이트의 예

- 구글에서 검색을 통해 들어오는 트래픽에서 가장 많은 돈을 벌어다

   주는 검색어는 무엇일까?

 

* 이쪽의 최강자는 Splunk

 

 

 

 

잠깐 !!!

빅데이터 오프라인 교육 일정을 안내해드려요 ^^

빅데이터RHADOOP실무과정 - 6/11 [평일주간] 6/12 [평일야간] 6/14 [주말주간]

-푸우 그림눌러주시면 교육홈페이지로 이동됩니다. ^^ -

 

[빅데이터공부하기 4] 웹서버 로그

 

 

 

 

[빅데이터공부하기3] 소셜 네트웍 데이터

 

이번글은 빅데이터공부하기 3번째시간으로서 소셜 네트웍 데이터에 대하여 알아보겠습니다.

 

소셜 네트웍 데이터

 

* 트위터, 페이스북 등의 소셜 미디어에서 만들어내는 데이터

- 트위터의 예

   1억 4천만명의 사용자와 하루 3억 4천만개의 트윗(2012년 6월 기준)

 

* 비지니스 분야에서 굉장히 유용하게 활용가능한 데이터

- 새로운 마케팅 및 광고 타케팅의 기본 데이터

 

 

 ★ 오라클자바교육센터 - www.oraclejava.co.kr

↓↓↓ 클릭하시면 it 강좌를 보실 수 있어요 ^^

[빅데이터공부하기3] 소셜 네트웍 데이터

[빅데이터공부하기 2] 검색엔진 데이터

 

빅데이터공부하기 2번째 글이네요 ^^

이번 시간에는 검색엔진 데이터와 디바이스 데이터에 대하여 글을 적어봅니다.

오늘도 파이팅하세요!!

 

검색엔진 데이터

- 수전척개의 웹페이지 크롤, 인덱싱

- 웹페이지 그래프를 기반으로 페이지 랭크 계산

- 사용자 검색어와 클릭로그

* 이를 기반으로 한 각종 마이닝 가능

- 동의어 찾기

- 통계기반 번역 (statistical translation)

- 검색입력 자동 완성(auto-completion)

 

디바이스 데이터

 

 

 

 

- 모바일 디바이스

* 위치정보

- 스마트 TV

- 각종 센서 데이터

- 네트워킹 디바이스

- 보인제트엔진, 스마트 미터

 

 

 

 

빅데이터 R / HADOOP 교육과정 오라클자바교육센터로 문의해보세요 ^^ 

[빅데이터공부하기 2] 검색엔진 데이터 / 디바이스 데이터

 

[빅데이터공부하기 1] 빅데이터정의

 

빅데이터공부하기 1. 첫번째 시간입니다. ^^

열심히 공부하시고~~ 많은 정보 얻고 가시길 바래요 ^---^

 

빅데이터공부하기 1 의 시작은 빅데이터 정의에 대하여 간단하게 글을 쓰려 합니다.

 

빅데이터 정의

- 디지털 환경에서 생성되는데이터

- 서버 한대로 처리할 수 없는 규모의 데이터

- 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존라우저가

   내린 정의다.

- 생성주기가 짧으며 규모가 방대하다.

- 수치 데이터 뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터이다.

 

 

 

 

빅데이터공부를 하기위해 학원을 알아보신다면

위의 링크를 클릭해보세요 ^-^

★ 02-6925-4760 ★

[빅데이터공부하기 1] 빅데이터정의

 

+ Recent posts