[빅데이터공부하기 6] 야후 검색팀의 예

 

빅데이터공부하기 6번째 글입니다.

야후 검색팀의 예 하둡 사용전과 하둡도입초반에 대해서 알아보도록하겠습니다.

 

 

야후 검색팀의 예 - 하둡 사용전

크롤,색인, 그래프 생성을 위해서 조금씩 다른 자체개발 소프트웨어들을 사용.

중복투자 및 유지보수의 문제

 

세가지 모두 일종의 분산처리시스템으로 자기가 하는 일에 최적화되었지만 많은 부분에 공통점들이 존재.

 

야후밖에서 전혀 쓸모가 없음

개인의 스킬셋 제약 및 Hiring관점에서도 문제가됨.

 

검색로그의 경우 용량 문제로 데이터의 전수조사 불가.

마이닌시 샘플링에 의존

 

데이터 엑세스 자체가 쉽지 않았음.

이것 역시 복잡합 승인 프로세스로 시간이 걸려있음.

 

 

야후 검색팀의 예 - 하둡도입초반

2006년 초 Doug Cutting을 영입하여 하둡 도입을 실험. 20노드 하둡 클러스터 셋업.

2008년 1000+ 노드 하둡 클러스터를 셋업

- 웹페이지 그래프 계산을 하둡으로 포팅

2009년 30여개 마켓의 모든 검색어를 하둡에 저장하고 처리.

웹페이지 classification이나 Machine Learned Ranking등의 모델 빌딩에 하둡 클러스터 사용

 

여기까지 빅데이터공부하기 6번째 글을 올렸습니다.

다음글에서는 하둡성숙기에 대해서 기재하도록 하겠습니다.^^

 

 

 

★ 빅데이터 과정 오프라인교육보러가기 아래그림 클릭!! ★ 

[빅데이터공부하기 6] 야후 검색팀의 예

 

 

 

 

 

 

+ Recent posts