빅데이터 공부하기25 . Data 읽기, Data 쓰기

행복한짱짱이 2014. 7. 15. 15:12

2014. 7. 15. 15:12

빅데이터 공부하기 25번째 글입니다.^^

이번글도 열심히 공부해볼까요?!

Data 읽기

1. 클라이언트는 먼저 NameNode와 통신하여 해당 파일의 데이터 블록 위치 리스트 (DataNode와 블록ID)를 얻음

2. 클라이언트는 DataNode들과 직접 통신하여 블록데이터들을 차례대로 읽어들임.

Data 쓰기

1. 클라이언트는 HDFS 파일을 생성하고자 하면 먼저 로컬파일시스템에 파일을 생성해야함

2. 파일 생성이 끝나거나 크기가 데이터블록의 크기보다 커지면 이때 NameNode를 컨택. NameNode는 파일생성요청을 메모리메타정보와 EditLog에 저장.

3. NameNode는 Replication factor만큼의 DataNode와 블럭 ID를 클라이언트에게 전송.

4. 클라이언트는 이중 첫번째 DataNode에 데이터를 쓰면서 replication이 벌어져야 하는 나머지 DataNode들의 리스트를 같이 넘긴다.

5. 첫번째 DataNode는 데이터를 복제받으면서 두번째 DataNode로 복제를 시작한다.

6. 마지막 DataNode에서 블록의 복제가 완료되면 이 시점에서 해당 데이터블록의 생성은 완료된 것으로 간주됨. 이 프로세스를 Replication pipelining이라함.

7. 클라이언트에서 파일에 써야할 데이터(데이터의 크기가 블록크기가 되거나 파일생성이 끝날때까지 기다림)가 더 있으면 다시 3으로 가서 반복.

빅데이터 오프라인교육은 아래를 클릭!!

↓↓

빅데이터 공부하기25 . Data 읽기, Data 쓰기

it개발자스터디공간