목록Big Data (27)
nathan_H
Message Queue MOM(Message Oriented Middleware)는 비동기 메시지를 사용하는 다른 응용 프로그램 사이에서 데이터 송 수신을 의미하는데, MOM를 구현한 시스템을 Message Queue라 한다. Message Queue는 프로그래밍에서 프로세스 또는 프로그램 인스턴스가 데이터를 교환할 때 사용하는 방법으로, 서비스에서 발생하는 데이터를 Message Queue로 별도의 작업을 연기 및 관리할 수 있기 때문에 SOA(Service-Oriented Architecture)의 개발에 도움을 준다. Message Queue 장점 비동기 MQ는 생산된 메시지를 저장 & 전송에 대해 동기화 처리를 진행하지 않고, Queue에 넣기 때문에 나중에 처리 가능하다. 여기서, 기존 동기화..
데이터 분석 기법에도 다양한 기법이 있드시 데이터 분석하는 프로세스 분석 방법론에도 몇가지가 있어 소개하고자 한다. KDD 분석론 KDD는 대표적인 분석 방법론으로 Knowledge Discovery in Databases라고 불리운다. 절차는 총 5단계로 진행이 된다. 1. Data Selection 가장 첫번째로는 분석을 하기 위핸 데이터들을 데이터 베이스 혹은 원데이터에서 선택해서 가져오는 단계이다. 2. Data Preprocessing 두번째 단계로는 추출해온 분석 대사용 데이터 셋에 포함되어 있는 이상치와 결측치등을 식별하고 필요시 제거하는 과정으로 가공하여 데이터 셋을 정제해주는 단계이다. 3. Data Transformation 세번째로는 전처리 과정을 통해 정제된 데이터를 목적에 맞게 변..
하둡은 크게 두가지로 진행이 되는데 하나는 분산저장 다른 하나는 분산처리로 진행이 된다. 분산 저장은 HDFS로 진행이되고 이에 대한 내용은 앞서 블로그 내용을 참고 바란다. 이번 글은 분산처리가 진행되는 MapReduce에 대해 알아보고자 한다. MapReduce란? 맵리듀스는 HDFS에 분산 저장된 데이터에 스트리밍 접근을 요청하여 빠르게 분사처리하도록 고안된 프로그래밍 모델이고 이를 지원하는 시스템이다. 또한 하둡에서 맵리듀스는 대규모 분산 컴퓨팅 혹은 단일 컴퓨팅 환경에서 개발자가 대량의 데이터를 병렬로 분석할 수 있고 개발자는 맵리듀스 알고리즘에 맞게 분석 프로그램을 개발하고 데이터의 입출력과 병렬처리 등 기반 작업은 프레임 워크가 알아서 처리해준다. MapReduce architecture 맵..
HDFS 설계에 대해 추상적으로 글로만 설명을 했는데 이번에는 다양한 그림과 함께 HDFS가 어떻게 설계되어져 있고 파일들을 어떻게 읽고 저장하고 요청하는지 알아보고자 한다. 블록 구조 파일 시스템 위에 그림 처럼 HDFS는 파일을 블록 구조를 통해 관리 및 분배를 진행을 한다. 기본 블록 크기는 하둡 1.0 : 64MB, 2.0 : 128MB 로 되어져 있고. 블록 구조 파일 시스템을 통해 1. 데이터 위치 찾는 시간 감소 2. 데이터 고나리 정보 크기 감소 효과를 가져오게 된다. NameNode와 DataNode HDFS는 크게 NameNode와 DataNode로 구성되어 있고 NameNode는 수시로 데이터 노드 상태를 모니터링하고 DataNode는 NameNode에게 하트비트를 전송해 주기적으로 ..
앞서 글에 빅데이터에 강력한 기술인 하둡에 관해 간력하게 소개를 하였는데 그 가운데 오늘은 HDFS인 하둡 파일 시스템에 대해 좀 들여다 볼까 한다. HDFS HDFS는 말그대로 하둡이 실행되는 파일을 관리해주는 시스템이다. 그리고 크게 NameNode, DataNode로 구성되어져 있다. HDFS 특징 HDFS의 특징으로 크게 4가지에 대해 간략하게 소개할까 한다. 1. 대용량 데이터를 범용 서버만으로 처리 가능 - 데이터 파일 크기나 개별 장비의 파일 시스템 크기에 제한이 없음 2. 용량 확장성 - 데이터가 증가하면 노드를 추가로 처리가능 3. 높은 처리량 실현 - 데이터의 부분 수정 불가, 랜덤 접근 불가, 큰 블록 처리 -> 고속 처리로 이어짐. 4. 슬레이브 노드의 일부가 고장 나도 데이터 손실..
바야흐로 빅데이터 시대라고 불리우고 현재 시대를 4차 산업혁명이라고 한다. 하지만 나는 아직까지 4차 산업혁이라고 불리는 것이 과연 맞는가라고 생각이 든다. 산업혁명을 판단하는 것은 시대가 지나고 과거를 돌아볼때 급격한 생산성 증대를 이루었던 기술이 도래 했던 시절을 회상하면서 바라볼때 그때 산업혁명이라고 부를수 있는게 아닐까 라는 나름의 개인적인 소견이 있다. 서두가 길었는데 4차 산업혁명이든 아니든 '빅데이터' 즉 방대한 데이터로 세상이 많이 움직이고 바뀌는 것은 틀림이 없다. 이에 따른 이러한 방대한 데이터를 처리하는 기술들도 많이 요구되어가고 있는데 그 기술중 Hadoop이라는 대표적인 빅데이터를 다루는 기술에 대해 알아볼까 한다. 본 내용은 순천향대학교 빅데이터 공학과 김정현 교수님 수업 및 시..
지난 번에는 데이터 분석에 관한 기법들에 대해 간단이 알아보았는데 이번에는 '빅데이터'를 다루는 기법 분석 방법에 대해 좀 더 들어가보고자 한다. 사실 기존 데이터 분석과 다른 큰 차이는 없지만 좀 더 거대한 데이터를 다루고 그 안에서 좀 더 세분화된 목적으로써 사용하기 위한 분석 방법이라고 보면 될 거 같다. 연관 규칙 연관규칙이란 어떠한 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법으로 Market Basket Analysis가 연관 규칙에 대표적 예시이다. 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? 이러한 것 처럼 하나의 변인이 다른 변인에 영향을 주고 주목할만한 점이 있는지 찾는 방법이다. 군집 분석 군집 분석이라 말그대로 군집을 나누어 분석을 진행하는 기법으로 한 사용자(객..
데이터 분석가, 데이터 사이언스 등 데이터와 관련된 산업과 직업들이 많이 생겨나고 이슈가 되고 있다. 그렇다면 여기서 데이터 분석이란 과연 무엇일까? 데이터 분석이란 한마디로 데이터를 수집하고 처리함으로써 유의미한 가치를 창출하는 과정이고 이러한 분석 기법들은 다양한 방법들이 존재하고 활용되어져 가고 있다. 그러면 데이터 분석 기법에 대해 어떠한 것들이 있는지 자세히 알아보자. 데이터 처리 데이터를 제대로 분석하기 전에 내가 수집한 혹은 기업이 가지고 있는 데이터를 처리하는 과정이 필요하다. 그리고 데이터 처리에는 크게 두가지로 Data warehouse와 Data Mart가 있다. Data Warehouse 우선 Data Warehouse란 데이터 베이스 시스템에서 의사 결정에 필요한 데이터를 미리 추..