목록Big Data/Analysis (4)
nathan_H
데이터 분석 기법에도 다양한 기법이 있드시 데이터 분석하는 프로세스 분석 방법론에도 몇가지가 있어 소개하고자 한다. KDD 분석론 KDD는 대표적인 분석 방법론으로 Knowledge Discovery in Databases라고 불리운다. 절차는 총 5단계로 진행이 된다. 1. Data Selection 가장 첫번째로는 분석을 하기 위핸 데이터들을 데이터 베이스 혹은 원데이터에서 선택해서 가져오는 단계이다. 2. Data Preprocessing 두번째 단계로는 추출해온 분석 대사용 데이터 셋에 포함되어 있는 이상치와 결측치등을 식별하고 필요시 제거하는 과정으로 가공하여 데이터 셋을 정제해주는 단계이다. 3. Data Transformation 세번째로는 전처리 과정을 통해 정제된 데이터를 목적에 맞게 변..
지난 번에는 데이터 분석에 관한 기법들에 대해 간단이 알아보았는데 이번에는 '빅데이터'를 다루는 기법 분석 방법에 대해 좀 더 들어가보고자 한다. 사실 기존 데이터 분석과 다른 큰 차이는 없지만 좀 더 거대한 데이터를 다루고 그 안에서 좀 더 세분화된 목적으로써 사용하기 위한 분석 방법이라고 보면 될 거 같다. 연관 규칙 연관규칙이란 어떠한 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법으로 Market Basket Analysis가 연관 규칙에 대표적 예시이다. 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? 이러한 것 처럼 하나의 변인이 다른 변인에 영향을 주고 주목할만한 점이 있는지 찾는 방법이다. 군집 분석 군집 분석이라 말그대로 군집을 나누어 분석을 진행하는 기법으로 한 사용자(객..
데이터 분석가, 데이터 사이언스 등 데이터와 관련된 산업과 직업들이 많이 생겨나고 이슈가 되고 있다. 그렇다면 여기서 데이터 분석이란 과연 무엇일까? 데이터 분석이란 한마디로 데이터를 수집하고 처리함으로써 유의미한 가치를 창출하는 과정이고 이러한 분석 기법들은 다양한 방법들이 존재하고 활용되어져 가고 있다. 그러면 데이터 분석 기법에 대해 어떠한 것들이 있는지 자세히 알아보자. 데이터 처리 데이터를 제대로 분석하기 전에 내가 수집한 혹은 기업이 가지고 있는 데이터를 처리하는 과정이 필요하다. 그리고 데이터 처리에는 크게 두가지로 Data warehouse와 Data Mart가 있다. Data Warehouse 우선 Data Warehouse란 데이터 베이스 시스템에서 의사 결정에 필요한 데이터를 미리 추..
몇년전부터 빅데이터 시대가 도래되면서 다양한 이슈와 문제들이 많이 나오고 있다. 그 중 빅데이터 시대에서 위기 요인에 대해 간략하게 정리해보고자 한다. 사생활 침해 데이터가 넘치고 그 데이터들이 활용되는 시대이다. 그래서 많은 부분 발전을 이룬 것도 사실이지만 그 이면에는 '사생활 침해'라는 민감한 문제도 생겨났다. 한가지 예로 외국에서 한 트위터 이용자가 자신의 여행 사실을 트위터에 올렸는데 이 글을 본 어느 한 강도가 트윗을 한 사람의 집에 들어가 범행을 저지른 사레가 발생 했다. 이렇듯 수많은 sns와 플랫폼들을 사용하면서 발생하는 '사생활 침해' 문제는 반드시 해결해야할 문제로 비춰지고 있다. 그래서 이러한 사생활 침해 문제에 대한 해결책으로 동의제에서 책임제로 바꾸는 방안들이 나오고 있다. 책임..