빅데이터공부하기 35-1

이번공부의 글은 Job 실행 커맨드 보기입니다.

오늘도 퐈이팅하세요!!

 

Job실행 커맨드 보기

bin/hadoop jar hadoop-examples-1.0.3.jar

wordcuont.input/README.txt./output/wordcount

 

bin/hadoop jar: 기본적으로 필요.jar 대신 fs를 주면 HDFS관련 커맨드를 실행가능.

 

hadoop-examples-1.0.3.jar: 실행하고자하는 자바클래스가 들어있는 jar파일.

(하둡에 딸려오는예제 jar)

 

wordcount: 주어진 jar파일의 클래스들 중 실행하고자 하는 main함수가

 들어있는 클래스

 

./input/README.txt:wordcount클래스 main함수는 두개의 인자를 예상.

첫번째는 입력파일의 위치

 

./output/wordcount: 두번째 인자는 출력 디렉토리의 위치. 출력 디렉토리가

존재할 경우 에러발생(먼저삭제해야함)

 

 

 

빅데이터공부하기 35번째글입니다.

하둡 STANDALONE MODE설치에 대해 공부하겠습니다.

 

먼저 예제프로그램 실행에 대해 보겠습니다.

 

예제프로그램실행

 

Standalone mode는 한 JVM안에서 모든 하둡 데몬들을 실행

 

conf/hadoop-env.sh 수정: JAVA_HOME 환경변수 부분의

주석을 제거하고 앞서 알아낸 JDK루트디렉토리를 지정

 

conf디렉토리에 있는 세개의 환경파일들이

비어있어야하는데 처음 설치시에는 비어있음

(<configuration></configruation>)

- core-site.xml, mapred-site.xml, hdfs-site.xml

 

딸려오는 예제 프로그램 실행하여 정상설치 확인

 

하둡 디렉토리로 이동 후 다음 명령 실행

 

1> mkdir input

2> cp README.txt input

3> bin/hadoop jar hadoop-examples-1.0.3.jar wordcount ./input/README.txt ./output/wordcount

 

 

 

 

빅데이터공부하기는 오라클자바IT공부하자를 이용해주세요 ^^

하둡 및 기타 소프트웨어 다운로드

빅데이터공부하기 34번째 글입니다.^^

 

하둡 실행모드와 향후 실습환경에 대해서 공부할께요.

 

하둡 실행모드

 

싱글노드모드(서버하나)

- Standalonemode(localmode)

* 모든데몬들이 하나의 JVM안에서 동작. 로클 파일시스템을 HDFS로 사용.

* 개발환경으로적합(디버깅이 용이)

 

-Pseudo Distributed mode

* 각각의 데몬이 각기 별개의 JVM으로 동작.

Replication factor가 하나인 HDFS를 사용.

한대라는 점을 제외하고는 멀티노드모드와 동일

 

멀티노드모드(서버 둘 이상)

- Fully Distributed mode

 

 

 

향후 실습 환경

- 우분투 서버

* Standalone 모드와 Pseudo Distributed모드로 설치

 

- AWS ClasticMapReduce

* Fully Distributed모드 서비스로 사용

 

 

빅데이터공부하기 34-2 기타 소프트웨어 다운로드

 

기타 소프트웨어 다운로드를 이번 빅데이터공부하기글에서 공부하도록할께요^^

 

기타 소프트웨어 다운로드

 

자바설치

먼저 java- version을 실행해서 자바버전이 1.6밑이면 다음 명령을 실행

* sudo apt-get update

* sudo apt-get install openjdk-6-jre

* sudo apt-get install openjdk-6-jdk

 

JDK의 홈디렉토리를 JAVA_HOME이란 환경변수로 지정

* export JAVA_HOME=/usr/lib/jvm/java-6-openjdk

* Is -tl $JAVA_HOME을 수행하여 존재 여부 확인

* JDK 홈디렉토리가 위와 다르면 다음을 수행

 - JAVA HOME=$(readlink -f /usr/bin/javac l sed "s:bin/javac::")

 

메이븐 설치

 sudo apt - get install maven2

 

ssh와 ssh-keygen

 ssh-keygen이 필요한데 이는 아마 디폴트로 설치되어 있을 것임

 

 

 

 

 

빅데이터공부하기 34번째 하둡 및 기타

소프트웨어 다운로드공부를 계속하겠습니다.

 

 

 

 

하둡 다운로드

1. 먼저 우분투 컴퓨터로 로그인

 

2. http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3

* 상당의 추천 미러 링크로 가서 hadoop-1.0.3 디렉토리로 들어간다.

 

3. hadoop-1.0.3.tar.gz를 다운로드

* 이는 하둡소스코드 포함(hadoop-1.0.3-bin.tar.gz는 소스제외 버전)

* wget  http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3/hadoop-1.0.3.tar.gz

 

4. 홈 디렉토리에서 이것의 압축을 풀고 untar

* gzip-d hadoop-1.0.3.tar.gz

* tar xvf hadoop-1.0.3.tar

 

5. 하둡이 설치된 루트 디렉토리를 HADOOP_HOME 이란

환경변수로 지정하고 PATH에 추가한다.

* export HADOOP_HOME=[하둡루트디렉토리]

* ex) export HADOOP_HOME=/home/ubuntu/hadoop-1.0.3/

 

 

 

다음 빅데이터공부하기글은 기타 소프트웨어 다운로드에 대해서

공부할께요 ^-^

 

오늘하루도 Good Day~ ★ 되세용 !!

 

하둡과 기타소프트웨어 다운로드를

빅데이터공부하기 34번째글에서

알아보도록하겠습니다.

 

눈 크게뜨시고 공부 시작하겠습니다. ^^

 

 

우선 설치환경부터 볼께요.

 

설치환경

우분투 환경의 리눅스 서버를 사용

 

사실 맥이나 다른 환경의 리눅스 서버도

문제 없으나 윈도우 환경의 경우 cygwin설치가 필요

-VM 매니저 설치 후 우분투 VM을 설치하고 우분투를 설치하는 것을 추천

 

설치 소프트웨어

아파치 하둡 1.0.3(1.1.x도 무방)

 

자바 1.6(JRE, JDK)

 

메이븐(Maven) 2이상

- 예제프로그램 컴파일에 필요

 

ssh, ssh-keygen

-password-less 로그인을 위해 필요

 

 

다음시간에도 계속공부할께요 ^^

 

지난글에이어 이번 빅데이터공부하기도

하둡클러스터에 대해서 공부하겠습니다. ^^

 

 

 

EBay 하둡 클러스터 구성예

 

2012년 6월 Hadoop Summit에서 발표

노드수 : 532대 - 1008대

총 스토리지크기 : 5- 18PB

네트웍 스위치 : 1Gbps and uplink 40Gbps

서버스펙

- Cent OS 4 64 bit

- Intel Dual Hex Core Xeon 2.4Hz

- 72GB RAM

- 2*12TB HDD(24TB)

- SSK for OS

 

Facebook 하둡 클러스터 구성 예

 

2010년 5월 자료

노드수 : 2000대

총 스토리지크기 : 21PB

네트웍 스위치 : 1Gbps and uplink 40Gbps

서버스펙

- Cen OS 4 64 bit

- 8 core 서버 : 1200대, 16 core 서버:800대.

- 32GB RAM

- 12TB HDD

 

 

 

 

이번 빅데이터공부하기 33번째글은 하둡클러스터에 대해 공부하겠습니다.

오늘부터 계속 비소식이 있네요.. 다들 우산 준비해서 다니세요.^^

 

 

하둡클러스터 구성 (2009년)

 

 

 

Commodity hardware

Linux PCs with local 4 disks

Typically in 2 level architecture

40 nodes/rack

Uplink from rack is 8 gigabit

Rack-internal is 1 gigabit all-to-all

 

 

다음공부도 클러스터에 대해서 공부하겠습니다. ^^

+ Recent posts