목록Big Data/Hadoop (4)
nathan_H
하둡은 크게 두가지로 진행이 되는데 하나는 분산저장 다른 하나는 분산처리로 진행이 된다. 분산 저장은 HDFS로 진행이되고 이에 대한 내용은 앞서 블로그 내용을 참고 바란다. 이번 글은 분산처리가 진행되는 MapReduce에 대해 알아보고자 한다. MapReduce란? 맵리듀스는 HDFS에 분산 저장된 데이터에 스트리밍 접근을 요청하여 빠르게 분사처리하도록 고안된 프로그래밍 모델이고 이를 지원하는 시스템이다. 또한 하둡에서 맵리듀스는 대규모 분산 컴퓨팅 혹은 단일 컴퓨팅 환경에서 개발자가 대량의 데이터를 병렬로 분석할 수 있고 개발자는 맵리듀스 알고리즘에 맞게 분석 프로그램을 개발하고 데이터의 입출력과 병렬처리 등 기반 작업은 프레임 워크가 알아서 처리해준다. MapReduce architecture 맵..
HDFS 설계에 대해 추상적으로 글로만 설명을 했는데 이번에는 다양한 그림과 함께 HDFS가 어떻게 설계되어져 있고 파일들을 어떻게 읽고 저장하고 요청하는지 알아보고자 한다. 블록 구조 파일 시스템 위에 그림 처럼 HDFS는 파일을 블록 구조를 통해 관리 및 분배를 진행을 한다. 기본 블록 크기는 하둡 1.0 : 64MB, 2.0 : 128MB 로 되어져 있고. 블록 구조 파일 시스템을 통해 1. 데이터 위치 찾는 시간 감소 2. 데이터 고나리 정보 크기 감소 효과를 가져오게 된다. NameNode와 DataNode HDFS는 크게 NameNode와 DataNode로 구성되어 있고 NameNode는 수시로 데이터 노드 상태를 모니터링하고 DataNode는 NameNode에게 하트비트를 전송해 주기적으로 ..
앞서 글에 빅데이터에 강력한 기술인 하둡에 관해 간력하게 소개를 하였는데 그 가운데 오늘은 HDFS인 하둡 파일 시스템에 대해 좀 들여다 볼까 한다. HDFS HDFS는 말그대로 하둡이 실행되는 파일을 관리해주는 시스템이다. 그리고 크게 NameNode, DataNode로 구성되어져 있다. HDFS 특징 HDFS의 특징으로 크게 4가지에 대해 간략하게 소개할까 한다. 1. 대용량 데이터를 범용 서버만으로 처리 가능 - 데이터 파일 크기나 개별 장비의 파일 시스템 크기에 제한이 없음 2. 용량 확장성 - 데이터가 증가하면 노드를 추가로 처리가능 3. 높은 처리량 실현 - 데이터의 부분 수정 불가, 랜덤 접근 불가, 큰 블록 처리 -> 고속 처리로 이어짐. 4. 슬레이브 노드의 일부가 고장 나도 데이터 손실..
바야흐로 빅데이터 시대라고 불리우고 현재 시대를 4차 산업혁명이라고 한다. 하지만 나는 아직까지 4차 산업혁이라고 불리는 것이 과연 맞는가라고 생각이 든다. 산업혁명을 판단하는 것은 시대가 지나고 과거를 돌아볼때 급격한 생산성 증대를 이루었던 기술이 도래 했던 시절을 회상하면서 바라볼때 그때 산업혁명이라고 부를수 있는게 아닐까 라는 나름의 개인적인 소견이 있다. 서두가 길었는데 4차 산업혁명이든 아니든 '빅데이터' 즉 방대한 데이터로 세상이 많이 움직이고 바뀌는 것은 틀림이 없다. 이에 따른 이러한 방대한 데이터를 처리하는 기술들도 많이 요구되어가고 있는데 그 기술중 Hadoop이라는 대표적인 빅데이터를 다루는 기술에 대해 알아볼까 한다. 본 내용은 순천향대학교 빅데이터 공학과 김정현 교수님 수업 및 시..