빅데이터공부하기 34-2 기타 소프트웨어 다운로드

 

기타 소프트웨어 다운로드를 이번 빅데이터공부하기글에서 공부하도록할께요^^

 

기타 소프트웨어 다운로드

 

자바설치

먼저 java- version을 실행해서 자바버전이 1.6밑이면 다음 명령을 실행

* sudo apt-get update

* sudo apt-get install openjdk-6-jre

* sudo apt-get install openjdk-6-jdk

 

JDK의 홈디렉토리를 JAVA_HOME이란 환경변수로 지정

* export JAVA_HOME=/usr/lib/jvm/java-6-openjdk

* Is -tl $JAVA_HOME을 수행하여 존재 여부 확인

* JDK 홈디렉토리가 위와 다르면 다음을 수행

 - JAVA HOME=$(readlink -f /usr/bin/javac l sed "s:bin/javac::")

 

메이븐 설치

 sudo apt - get install maven2

 

ssh와 ssh-keygen

 ssh-keygen이 필요한데 이는 아마 디폴트로 설치되어 있을 것임

 

 

 

 

 

빅데이터공부하기 34번째 하둡 및 기타

소프트웨어 다운로드공부를 계속하겠습니다.

 

 

 

 

하둡 다운로드

1. 먼저 우분투 컴퓨터로 로그인

 

2. http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3

* 상당의 추천 미러 링크로 가서 hadoop-1.0.3 디렉토리로 들어간다.

 

3. hadoop-1.0.3.tar.gz를 다운로드

* 이는 하둡소스코드 포함(hadoop-1.0.3-bin.tar.gz는 소스제외 버전)

* wget  http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3/hadoop-1.0.3.tar.gz

 

4. 홈 디렉토리에서 이것의 압축을 풀고 untar

* gzip-d hadoop-1.0.3.tar.gz

* tar xvf hadoop-1.0.3.tar

 

5. 하둡이 설치된 루트 디렉토리를 HADOOP_HOME 이란

환경변수로 지정하고 PATH에 추가한다.

* export HADOOP_HOME=[하둡루트디렉토리]

* ex) export HADOOP_HOME=/home/ubuntu/hadoop-1.0.3/

 

 

 

다음 빅데이터공부하기글은 기타 소프트웨어 다운로드에 대해서

공부할께요 ^-^

 

오늘하루도 Good Day~ ★ 되세용 !!

 

하둡과 기타소프트웨어 다운로드를

빅데이터공부하기 34번째글에서

알아보도록하겠습니다.

 

눈 크게뜨시고 공부 시작하겠습니다. ^^

 

 

우선 설치환경부터 볼께요.

 

설치환경

우분투 환경의 리눅스 서버를 사용

 

사실 맥이나 다른 환경의 리눅스 서버도

문제 없으나 윈도우 환경의 경우 cygwin설치가 필요

-VM 매니저 설치 후 우분투 VM을 설치하고 우분투를 설치하는 것을 추천

 

설치 소프트웨어

아파치 하둡 1.0.3(1.1.x도 무방)

 

자바 1.6(JRE, JDK)

 

메이븐(Maven) 2이상

- 예제프로그램 컴파일에 필요

 

ssh, ssh-keygen

-password-less 로그인을 위해 필요

 

 

다음시간에도 계속공부할께요 ^^

 

지난글에이어 이번 빅데이터공부하기도

하둡클러스터에 대해서 공부하겠습니다. ^^

 

 

 

EBay 하둡 클러스터 구성예

 

2012년 6월 Hadoop Summit에서 발표

노드수 : 532대 - 1008대

총 스토리지크기 : 5- 18PB

네트웍 스위치 : 1Gbps and uplink 40Gbps

서버스펙

- Cent OS 4 64 bit

- Intel Dual Hex Core Xeon 2.4Hz

- 72GB RAM

- 2*12TB HDD(24TB)

- SSK for OS

 

Facebook 하둡 클러스터 구성 예

 

2010년 5월 자료

노드수 : 2000대

총 스토리지크기 : 21PB

네트웍 스위치 : 1Gbps and uplink 40Gbps

서버스펙

- Cen OS 4 64 bit

- 8 core 서버 : 1200대, 16 core 서버:800대.

- 32GB RAM

- 12TB HDD

 

 

 

 

이번 빅데이터공부하기 33번째글은 하둡클러스터에 대해 공부하겠습니다.

오늘부터 계속 비소식이 있네요.. 다들 우산 준비해서 다니세요.^^

 

 

하둡클러스터 구성 (2009년)

 

 

 

Commodity hardware

Linux PCs with local 4 disks

Typically in 2 level architecture

40 nodes/rack

Uplink from rack is 8 gigabit

Rack-internal is 1 gigabit all-to-all

 

 

다음공부도 클러스터에 대해서 공부하겠습니다. ^^

빅데이터공부하기 32-1 MapReduce

 

지난시간글은 MapReduce 프로그래밍에 대해서 간단하게 소개를 했는데요.

이번 빅데이터공부하기 글은 MapReduce 사용 적합분야와

사용 부적합분야에 대해서 알아보겠습니다.

 

 

MapReduce 사용적합분야

 

 병렬도가 높은 Jobs(no dependency)

- File Format conversion, Text Grep, Web Cramling, ...

 

로그분석

- Search Log

 

 

머신 러닝, 데이터 마이닝

- Recommendation Engine

 

- Model Building

Search Ranking, Document Classifier, ...

 

- ETL(Extrant, Tranform and Load)

 

MapReduce 사용 부적합 분야

 

리얼타임 데이터 처리

- 데이터 스트립을 리얼타임으로 처리해주는 Realtime Analytics

 

리얼타임 데이터 액세스

- 하둡이 처리한 데이터는 리얼타임으로 외부에서 액세스 불가

-> HBase!

 

많은 Iteration이 필요한 작업들

- 그래프 프로세싱

 

 

 

빅데이터공부하기 32번째글입니다.

와.. 벌써 그렇게 되었다늬..^---^

(혼자감탄중 ㅋㅋ)

 

32번째글은 Map Reduce프로그래밍에 대해서 공부할거에요.

 

 

그전에 Tom White의 "Hadoop Definite Guide"를 보시고 가죠..

 

본격적으로 빅데이터하둡공부하기 씌작!!

 

MapReduce프로그래밍

 

- 기본적으로 자바

 

- Hive / Pig등의 하이레벨 언어

* UDF 등으로 확장가능

작업성격에 따라 프로그래밍이 훨씬 간편하지만 느림

 

- Streaming(stdin/stdout)

* Python, Perl, shell, ruby, ...

* 자바에 비해 20%정도 느림

 

-Pipe(C++)

* 소켓을 입출력으로 사용하는 모델

 

다음글에서는 MapReduce사용적합분야와 부적합분야에 대해서

공부하겠습니다. ^^

 

빅데이터공부하기 31-2 WordCount 의사코드

 

지난글에 이어서 WordCount의사코드에 대해 공부하겠습니다.

 

빅데이터공부는 ORACLEJAVA IT공부하자에서 하세요 ^--^

 

 

WordCount의사코드

 

public static class Map extends Mapper<LongWritable, Text, Text, LongWritable>                                             1                        2

{

private final static LongWriable one = new LongWriable(1);

private Text word = new Text();

                    3

 

public void map(LongWriable key, Text value, Context context)

throws IOException, InterruptedException

{

String Iine = value.toString();

String Tokenizer tokenizer = new String Tokenizer(line, " , "\t\r\n\f |,.\"");

while (tokenizer.hasMore Tokens())

{

word set(tokenizer.nextToken().toLowerCase());

context.wrie(word, one);          4

}

}

 

 

1. 입력레코드의 키, 밸류 타입은 인풋포맷이 결정하며 앞서 main에서 보면 TextlnputFormat을 사용. LongWritable, Text등은 자바의 Long과 String 타입의 하둡용 랩퍼.

 

2. 출력레코드의 키, 밸류 타입은 Text, LongWriable인 데 이건 프레임웍에 의해 소팅, 셔플링이 된다음에 reducer로 넘어간다.

 

3. map 메소드내에서 사용할 변수를 두개 미리 만들어둔다.

 

4. map 메소드는 밸류로 넘어온 텍스트 파일의 라인을 String Tokenizer 클래스를 이용해 파싱한 다음 각 단어들을 하나씩 프레임웍으로 넘긴다.

(키는 단어, 밸류는 1)

 

 

빅데이터공부하기 31-2 WordCount 의사코드

+ Recent posts