보너스 : MRUnit

 

- Cloudera에서 개발한 MapReduce를 위한 오픈소스 유닛테스트 프레임웍.

 

- JUnit과 같은 표준 자바 테스트툴과 MapReduce 프레임웍간의 손쉬운 통합 지원

 

- http://mrunit.apache.org

 

 

WordCountTest.java

 

암 세션에서 제공한 WordCount 프로젝트의 일부로 제공한 MRUnit기반 유닛테스트 코드

- WordCount의 mapper와 reducer의 기능을 샘플데이터로 테스트

 

빌드 프로세스의 일부로 실행

- "mvn test" or "mvn install"

 

Unit Test는 Continuous Integration에서 아주 중요!!

 

 

 

 

빅데이터공부하기 51_4 MRUnit / WordCountTest.java

 

지낙 빅데이터공부하기 51_2 번째 글에서 Mapper Task Log를 공부했었는데요.

이번에는 Task Log 페이지에 대해서 알아보도록하겠습니다.

 

Task Log 페이지

 

 

Mapper/Reducer timeout

 

만일 task가 오래동안 아무 "소식"이 없으면 tasktracker는 그 잡이 문제가 있다고 생각하고 중지.

- "소식" : 입력 읽기, 출력쓰기 혹은 상태 리포트, 타운터 증가 등등

 

- 오래 걸리는 것이 예상된다면 해결책은

* timeout 증가(mapred.task.timeout). 디폰트는 10분

* 종종 tasktracker로 살아있다고 핑 보내기

- Mapper.Context나 Reducer.Context의 progress 혹은 setStatus 메소드 호출

빅데이터 공부하기 !!

Job Tracker 웹 인터페이스의 두번째 시간입니다.

1. Mapper Task Detail

2. Mapper Task Log

두가지를 배워보도록 하겠습니다.

 

1. Mapper Task Detail

 

Job job_201208050110_0004

 

 

 

2. Mapper Task Log

 

Task Logs: 'attempt_201208050110_0004_m_000000_0'

 

 

 

빅데이터 공부하기 51번째 글입니다. ^^

 

Job Tracker 웹 인터페이스에 대해서 공부하겠습니다.

1. Job Detail

2. Mapper Detail

 

이번글에서는 2가지로 알아보겠습니다.

 

1. Job Detail

 

Hadoop job_201208050100_0004 on localhost

 

 

이 잡은 모두 16개의 mapper와 1개의 reducer를 필요로 했음

 

2. Mapper Datail

 

Hadoop map task list for job_201208050110_0004 on localhost

 

 

 

hadoop job 커맨드

 

- hadoop job -kill Jpb_ID

* 주어진 Job ID의 Job의 실행을 중단. Job ID는 웹인터페이스나 커맨드라인에서 Job Client가 뿌려주는 메세지들에서 찾을 수 있다.

 

ex) 12/08/05 15:59:40 INFO mapred.JobClient: Running job: job_201208050100_0004

 

- hadoop job -list

* 실행중인 Job들의 리스트를 디스플레이

* all 옵션을 뒤에 붙이면 실행이 완료된 Job들의 리스트도 표시

 

 

Job 진행출력의 의미

 

 

빅데이터공부하기 49번째 글입니다. 이번글은 카운터에 대해서 알아보도록하겠습니다.

 

 

카운터

- Mapper나 reducer에서 특정 이벤트의 발생회수를 쉽게 카운트해 줄 수 있도록 해주는 메커니즘

 

- 카운터를 만드는 예

* context.getCounter("Stats", "1 character word").increment(1);

- context는 map이나 reduce의 세번째 인자

- "Stats" : 카운터 그룹의 이름

- "1 character word" : 카운터의 실제 이름

 

카운터의 최종값을 보려면

* 잡 실행시 터미널 화면이나 JobTracker의 웹인터페이스에서 확인가능

 

 

카운터 터미널 출력 예

 

 

카운터의 수

 

- 이런 카운팅은 mmapper나 reducer 각각에서 개별 발생

- TaskTracker는 주기적으로 JobTracker에게 hearbeat 메세지를 전송하는데 이때 각 태스크별로 발생한 카운터 정보를 같이 전송

- 너무 많은 카운터는 퍼포먼스에 영향을 줌

* 기본 최대값은 120이며 이를 넘어갈 경우 CountersExceededExceptions이 발생.

* 이를 증가시키려면 mapreduce.job.counters.limit 피라미터의 값을 증가

 

 

빅데이터공부하기 48번째글입니다.

오랜만에 빅데이터공부를하네요 ㅋㅋ

 

48번째는 출력포맷 클래스에대해서 공부할거에요.

1. TextOutputFormat

2. SequenceFileOutputFormat

두가지로 배워보겠습니다.

 

1. TextOutputFormat

 

FileOutputFormat에서 계승된 디폴트 출력 클래스

- 출력 클래스는 Job클래스의 setOutputFormatClass로 지정

 

TextInputFormat의 반대역할

- 텍스트파일이 만들어지면 출력레코드 하나가 한줄이 됩니다.

 

출력되는 키와 밸류 사이에 tab문자가 놓임

- keyValueTextOutputFormat은 존재하지 않음

 

키와 밸류의 타입은 아무 타입이나 가능

 


 

2. SequenceFileOutputFormat

 

SequenceFile 포맷의 파일을 쓸때 사용하는 포맷

- 특히 여러 하둡잡들을 체인닝하여 작업을 할 때 굉장히 유용 (퍼포먼스 측면)

 

퍼포먼스를 고려하면 반드시 사용해야할 출력포맷. setOutputCompressionType 메소드를 통해 압출 방식 지정가능 (BLICK, NONE, RECORD)

 

헤더의 존재로 인해 파일이 내용이 없는 경우에도 크기가 0가 아님

 

 

 

 

 

HTML5 공부하기  오늘은 문서구조에 대해서 보려합니다.

 

 

 

HTML의 구조를 코딩한것입니다. ^^

<!DOCTYPE html>

<html>

<head>

<title> Sample page</title>

<head>

<body>

<header>

<h1>HTML5 ex </h1>

</header>

<nav></nav>

<section>

<article><p>Comment</p></article>

<article><p>content</p></article>

<article><header><h2>HTML 5</h2></header></article>

</section>

<aside> This is aside Area</aside>

<footer></footer>

</body>

</html>

 

아직 CSS가 없어서 실행해도 이상하게 보일거에요 ^^ 차츰차츰 공부하자구요 ><

 

'웹표준 > HTML5 & CSS3' 카테고리의 다른 글

html&css공부하기  (1) 2015.03.09
HTML5&CSS3 공부하기 글자색과 배경색 2  (0) 2015.03.02
HTML5&CSS3 공부하기 글자색과배경색  (0) 2015.02.25
HTML5&CSS3공부하기  (0) 2015.02.24
HTML5공부하기_ input type  (0) 2014.11.06

+ Recent posts