빅데이터(BIG DATA) 교육자료] 빅데이터 자료처리 환경 2

빅데이터(BIG DATA) 교육자료] 빅데이터 자료처리 환경 2

 

 

 

빅데이터 자료처리 환경 <분산 시스템>


- 데이터베이스 컴퓨팅


인-메모리 데이터베이스(IMDBs)는 메모리의 비용과 휘발성을 증가시켰다 (90년대)

MPP (massively parallel processing) databases(1980s)

대량병렬처리(MPP) 데이터베이스(80년대)


기업 데이터 웨어하우스(EDWs)에서의 가장 직접적 업데이트.


분석코드를 데이터로 보내고 현장에서 처리하는 소프트웨어를 사용하고, 분산 데이터베이스에서 제공하는 대량의 계산 자원을 활용하면, 분산되지 않은 시스템에 비해 더 빠르고 실행시간이 짧은 모델을 만들 수 있다.


-파일 시스템 컴퓨팅


하둡(Hadoop)


하둡은 2004년에 개발되었는데, Doug Cutting과 Cafarella가 너치에서 수행한 작업과 구글이 대규모 클러스터에서의 자료처리를 위한 MapReduce 패러다임을 소개한 논문에 기초하였다


신용카드 거래는 하둡에 저장되지만, 카드 사용자의 게좌 정보는 기존 데이터베이스에 저장되고 유지된다.


하둡은 엄청나게 많은 데이터를 상용 하드웨어에 저장하고 유지할 수 있으며 비용만 조금 추가하면 손 쉽게 하드웨어 자원을 추가하여 확장해나갈 수 있다는 점에서 매력적이다.


데이터 조사 절차에는 모델링 과정에 쓰일 데이터와 데이터 저장소를 찾아내는 것도 포함된다.


그렇게 찾아낸 데이터는 데이터 마이닝을 위해 결합, 요약, 저장되며 그 과정은 대개 하둡에서 이루어진다.


- 고려사항(CONSIDERATIONS)


플랫폼 상층관계와 조직의 필요에 대한 고려가 투명하게 공유된다면 전체조직과 개별 이해관계자들 모두에게 최선의 결과를 낼 수 있다. 솔루션의 목적 달성시간, 예상되는 데이터 분량, 그리고 예산에 따라 결정을 내려야 한다.

+ Recent posts