nathan_H

데이터 분석이란? 본문

Big Data/Analysis

데이터 분석이란?

nathan_H 2019. 6. 12. 14:45

 

데이터 분석가, 데이터 사이언스 등

데이터와 관련된 산업과 직업들이 

많이 생겨나고 이슈가 되고 있다.

 

그렇다면 여기서 데이터 분석이란 과연 무엇일까?

 

데이터 분석이란 한마디로

데이터를 수집하고 처리함으로써

유의미한 가치를 창출하는 과정이고

이러한 분석 기법들은 다양한 

방법들이 존재하고 활용되어져 가고 있다.

 

그러면 데이터 분석 기법에 대해 
어떠한 것들이 있는지 

자세히 알아보자.

 

 

 

데이터 처리

 

데이터를 제대로 분석하기 전에 

내가 수집한 혹은 기업이 가지고 있는

데이터를 처리하는 과정이 필요하다.

 

 

그리고 데이터 처리에는

크게 두가지로 Data warehouse와 Data Mart가 있다.

 

 

Data Warehouse

우선 Data Warehouse란 

데이터 베이스 시스템에서

의사 결정에 필요한 데이터를

미리 추출해 이를 원하는 형태로

변환하고 통합한 "읽기 전용"의 

데이터 저장소 이다.

 

 

 

그리고 DW의 특징으로는

 

1. 주제 지향성(Subject - orientation)

2. 통합성(intergration)

3. 시계열성(time-variancy)

4. 비휘발성(non-volatilization)

이 있다.

 

 

 

Data Mart

 

Data Mart는 데이터 웨어 하우스와 사용자

사이의 중간층에 위치하는 것으로 

하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다.

 

source- http://www.anymodules.com/xe/301

 

 

source- http://www.anymodules.com/xe/301

 

 

 

 

데이터 분석 기법

그럼 이제 데이터를 처리 했으니

본격적인 분석 기법에 대해 알아보자.

 

 

 

Data visualizatiion

 

Data visualizatiion은 말 그대로 

데이터 분석 결과를 쉽게 이해할 수 있도록 

시각적으로 표현해 전달하는 과정이다.

 

그래서 Data visualizatiion의 목적은

그래프 또는 차트라는 수단을 통해

정보를 명확하고 효과적으로 전달함에 있다.

 

 

 

source - http ://newsjel.ly/archives/681 http://

 

 

 

 

Spatial Analysis

Spatial Analysis는 한국말로

공간분석으로

공간적 차원과 관련된 속성들을 시각화 하는 분석이다.

 

 

아래 그림 처럼 지도 위에 관련된 

속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분한다.

 

source - http://www.birc.co.kr/2016/10/20/chapter4%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%A0%9C1%EC%9E%A5_%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EA%B0%9C%EC%9A%94/

 

 

 

Exploratory data analysis

데이터 분석 중에 기본이면서

가장 중요한 분석법인

탐색적 데이터 분석은

데이터의 특징과 데이터의 구조적 관계를

알아내기 위한 방법이다.

 

 

 

 

 

통계 분석

 

통계 분석이란 데이터에 대한

현상을 종합적으로 한눈에

볼수 있도록 일정한 체계에 따라

숫자와 표, 그림의 형태로 나타내는 분석이다.

 

그리고 통계분석에는

 

1. 기술 통계

-  관측한 데이터를 도표로 정리하거나 통계량(평균, 분산 등)으로 정리.

 

2. 추축 통계

- 분석하려는 대상의 전체집단(모집단)의 일부(표본)을 추출하여

전체 집단의 전체 성격을 추측, 추론.

 

으로 크게 두가지로 나누어 분석을 진행한다.

 

 

 

 

데이터 마이닝

 

데이터 마이닝이란 대용량의 데이터로부터 정보를

요약하고 미래에 대한 예측 분석방법이다.

 

데이터 마이닝은 다른 분석기법과 달리

예측에 대해 초점을 맞춘 분석 기법이라고 볼 수 있다.

 

 

 

 

KDD 분석 방법론
(Knowledged Discovery in Databases)

데이터 분석 방법론중

유명한 KDD 분석 방법론이 있는데

KDD 분석 방법론은 크게 5가지 과정으로

진행이 된다.

 

 

1. 데이터 선택(Selection)

- 데이터베이스 또는 원 데이터에서 분석에 필요한 데이터 선택

 

 

2. 데이터 전처리(Preprocessing)

- 추출된 분석 대사용 데이터 셋에 포함되어 있는 이상치와 결측치등을

식별하고 제거, 가공하여 데이터 셋을 정제.

 

3. 데이터 변형(Transformation)

- 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 

변수를 생성, 선택하고 데이터의 차원을 축소하여

효울적으로 데이터 마이닝 할 수 있도록 변환

 

4. 데이터 마이닝(Data Mining)

- 분석 목적에 맞는 데이터 마이닝 기법 / 알고리즘 선택.

 

5. 결과 해석 및 평가(Interpretation / Evaluation)

- 데이터 마이닝 결과에 대한 해석과 평가.

 

 

 

Simulation

Simulation은 단어 뜻 그대로

데이터 분석한 결과가 제대로 사용될 수 잇는지

복잡한 실제 상황을 단순화해 컴퓨터상의 모델로 만들어

재현하거나 변경하는 과정이다.

 

즉 현상을 보다 잘 이해하고 미래의 변화에 대해 잘 예측하는데 

사용하는 방법이다.

 

source- https://steemit.com/coinkorea/@phuzion7/random-work-vs-non-random-work-theory

 

Optimization

 

이제 다양한 기법을 통해 데이터 분석한 결과 혹은

모델을 Optimization 과정을 거쳐야 하는데

 

즉 Optimization은 목적함수 값을 최대화 또는 최소화하는 것을

목표로 하는 방법이다.

 

 

 

 

 

 

 

 

데이터 분석 기법 비교

 

 

source -https ://steemkr.com/kr/@eunxu/3

 

'Big Data > Analysis' 카테고리의 다른 글

분석 방법론  (0) 2019.06.12
빅데이터 분석 방법 및 활용 사례  (0) 2019.06.12
빅데이터 시대의 위기 요인  (0) 2019.06.12
Comments