목록분류 전체보기 (100)
nathan_H
앞서 글에 빅데이터에 강력한 기술인 하둡에 관해 간력하게 소개를 하였는데 그 가운데 오늘은 HDFS인 하둡 파일 시스템에 대해 좀 들여다 볼까 한다. HDFS HDFS는 말그대로 하둡이 실행되는 파일을 관리해주는 시스템이다. 그리고 크게 NameNode, DataNode로 구성되어져 있다. HDFS 특징 HDFS의 특징으로 크게 4가지에 대해 간략하게 소개할까 한다. 1. 대용량 데이터를 범용 서버만으로 처리 가능 - 데이터 파일 크기나 개별 장비의 파일 시스템 크기에 제한이 없음 2. 용량 확장성 - 데이터가 증가하면 노드를 추가로 처리가능 3. 높은 처리량 실현 - 데이터의 부분 수정 불가, 랜덤 접근 불가, 큰 블록 처리 -> 고속 처리로 이어짐. 4. 슬레이브 노드의 일부가 고장 나도 데이터 손실..
바야흐로 빅데이터 시대라고 불리우고 현재 시대를 4차 산업혁명이라고 한다. 하지만 나는 아직까지 4차 산업혁이라고 불리는 것이 과연 맞는가라고 생각이 든다. 산업혁명을 판단하는 것은 시대가 지나고 과거를 돌아볼때 급격한 생산성 증대를 이루었던 기술이 도래 했던 시절을 회상하면서 바라볼때 그때 산업혁명이라고 부를수 있는게 아닐까 라는 나름의 개인적인 소견이 있다. 서두가 길었는데 4차 산업혁명이든 아니든 '빅데이터' 즉 방대한 데이터로 세상이 많이 움직이고 바뀌는 것은 틀림이 없다. 이에 따른 이러한 방대한 데이터를 처리하는 기술들도 많이 요구되어가고 있는데 그 기술중 Hadoop이라는 대표적인 빅데이터를 다루는 기술에 대해 알아볼까 한다. 본 내용은 순천향대학교 빅데이터 공학과 김정현 교수님 수업 및 시..
지난 번에는 데이터 분석에 관한 기법들에 대해 간단이 알아보았는데 이번에는 '빅데이터'를 다루는 기법 분석 방법에 대해 좀 더 들어가보고자 한다. 사실 기존 데이터 분석과 다른 큰 차이는 없지만 좀 더 거대한 데이터를 다루고 그 안에서 좀 더 세분화된 목적으로써 사용하기 위한 분석 방법이라고 보면 될 거 같다. 연관 규칙 연관규칙이란 어떠한 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법으로 Market Basket Analysis가 연관 규칙에 대표적 예시이다. 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? 이러한 것 처럼 하나의 변인이 다른 변인에 영향을 주고 주목할만한 점이 있는지 찾는 방법이다. 군집 분석 군집 분석이라 말그대로 군집을 나누어 분석을 진행하는 기법으로 한 사용자(객..
데이터 분석가, 데이터 사이언스 등 데이터와 관련된 산업과 직업들이 많이 생겨나고 이슈가 되고 있다. 그렇다면 여기서 데이터 분석이란 과연 무엇일까? 데이터 분석이란 한마디로 데이터를 수집하고 처리함으로써 유의미한 가치를 창출하는 과정이고 이러한 분석 기법들은 다양한 방법들이 존재하고 활용되어져 가고 있다. 그러면 데이터 분석 기법에 대해 어떠한 것들이 있는지 자세히 알아보자. 데이터 처리 데이터를 제대로 분석하기 전에 내가 수집한 혹은 기업이 가지고 있는 데이터를 처리하는 과정이 필요하다. 그리고 데이터 처리에는 크게 두가지로 Data warehouse와 Data Mart가 있다. Data Warehouse 우선 Data Warehouse란 데이터 베이스 시스템에서 의사 결정에 필요한 데이터를 미리 추..
몇년전부터 빅데이터 시대가 도래되면서 다양한 이슈와 문제들이 많이 나오고 있다. 그 중 빅데이터 시대에서 위기 요인에 대해 간략하게 정리해보고자 한다. 사생활 침해 데이터가 넘치고 그 데이터들이 활용되는 시대이다. 그래서 많은 부분 발전을 이룬 것도 사실이지만 그 이면에는 '사생활 침해'라는 민감한 문제도 생겨났다. 한가지 예로 외국에서 한 트위터 이용자가 자신의 여행 사실을 트위터에 올렸는데 이 글을 본 어느 한 강도가 트윗을 한 사람의 집에 들어가 범행을 저지른 사레가 발생 했다. 이렇듯 수많은 sns와 플랫폼들을 사용하면서 발생하는 '사생활 침해' 문제는 반드시 해결해야할 문제로 비춰지고 있다. 그래서 이러한 사생활 침해 문제에 대한 해결책으로 동의제에서 책임제로 바꾸는 방안들이 나오고 있다. 책임..
참고 Blog http://sanghyukchun.github.io/69/ Machine learning 스터디 (13) Clustering (K-means, Gaussian Mixture Model) - README 들어가며 첫 번째 글에서 설명했던 것 처럼 Machine Learning은 크게 Supervised Learning, Unsupervised Learning 그리고 Reinforcement Learning으로 구분된다. 앞서 이미 그 중 Supervised Learning을 간략하게 다룬 글이 있었고, 이 글에서는 그 중 Unsupervised Learning의 가장 대표적인 예시인 Clustering 대해 다룰 것이며 가장 대표적이고 간단한 두 가지 알 sanghyukchun.github..
참고 블로그 - http://sanghyukchun.github.io/70/ Machine learning 스터디 (14) EM algorithm - README 들어가며 EM 알고리즘은 latent variable이 존재하는 probabilistic model의 maximum likelihood 혹은 maximum a posterior 문제를 풀기 위한 알고리즘 중 하나이다. 굉장히 많은 probabilistic 모델을 풀기 위해 널리 사용되는 알고리즘 중 하나이며, iterative한 알고리즘 중 하나이다. Clustering에서 다뤘던 GMM은 물론이고, HMM, RBM 등의 문제를 해결하는데 있어서도 사용되 sanghyukchun.github.io EM Algorithms E : Expectati..
Hierarchical Clustering Hierarchical Clustering은 뜻 그대로 계층 군집화로 비슷한 군집끼리 묶어 가면서 최종 적으로는 하나의 케이스가 될때까지 군집을 묶는 클러스터링 알고리즘이다. (K-means와 다르게 미리 군집 개수를 정하는 것이 아니라 학습을 하면서 스스로 군집 개수를 정한다.) 알고리즘 진행은 다음과 같다 1) 각 데이터들을 cluster라고 가정 2) 각 데이터 pair 사이의 distance 계산 3) 가장 distance가 작은 pair를 하나의 cluster로 묶음 4) 모든 데이터가 하나의 cluster로 묶이지 않으면2)반복 예시 참고 자료 - http://www.datamarket.kr/xe/board_mXVL91/9807 데이터분석 - 8.군집..