빅데이터(BIG DATA) 교육자료] 빅데이터 분석도구 1

빅데이터(BIG DATA) 교육자료] 빅데이터 분석도구 1


 

 

 

빅데이터 분석도구 1 


어디에 데이터를 저장하고 분석을 위해 데이터를 어떻게 준비해야 하는지 설명


-WEKA


Weka는 와이카토 지식분석환경(Waikato Environment for Knowledge Analysis)의 약자로서 뉴질랜드의 와이카토 대학에서 JAVA로 개발된 오픈 소스 데이터 마이닝 프로그램이다.


Weka는 고도로 발전된 광범위한 훈련 알고리즘과 GUI(Graphic User Interface), 데이터가시화 도구의 통합으로 유명하다.


Weka는 RAM 가용자원이 제한되어 빅 데이터 분석을 할 정도로 확장되지 않는다.

best practice : sampling

Weka는 Weka 3.6에서 멀티스레딩과 간단한 멀티태스킹을 향해 나아가고 있다.


자바 기반 빅데이터 분석 환경 : Pentaho와 대량 온라인 분석(MOA)


- JAVA와 JVM LANGUAGES


JAVA, 그 외 JVM에서 쓰이는 여러 언어들에서 분석 플랫폼을 설계하려 하는 단체들이 많다.


Scala는 스위스 로젠의 연방 에콜 폴리테크니크에서 개발된 오픈소스 언어로서 2003년에 첫 출시되었다.


Scala는 JAVA의 개발 효율성을 포괄하기 때문에, 데이터마이닝 애플리케이션을 구성할 때 사용된다.


적차적인 멀테스레딩 어플리케이션의 중요 문제는 여러 개의 명령어들이 동시에 하나의 변수를 바꾸지 못하게 막는 것이다.


함수형 프로그래밍언어에서는 변수를 절대 바꾸지 않는 방식으로 이 문제를 회피한다.


Akka는 JVM에서 대규모의 평행하고 분산된 애플리케이션을 만드는 도구이다.


Spark는 캘리포니아 대학 버클리 AMP연구서에서 개발된 고성능 데이터마이닝 환경이다.


Clojure는 Rich Hickey에 의해 만들어져 2007년 출시되었다.


Clojure는 함수형 프로그래밍 언어이자 Lisp 프로그래밍 언어의 방언으로서, 추가적인 스크립팅과 동시실행 기능을 갖추고 있다.

Lisp에서 데이터를 일종의 코드 개념으로 상속하는 Clojure​ defaults 불변 자료구조


지연 평가와 Lisp에서 가져온 매우 효과적인 매크로 기능은 DSL(Domain Specific Languages)와 DSL for SQL을 실현시킨다. 또한 하둡의 통합도 이미 이루어졌다


Clojure 특유의 강점이 JVM 플랫폼과 JAVA libraries에 대한 접근과 결합할 때, 더욱 강력한 범용 프로그래밍 자산이 된다.

+ Recent posts