nathan_H

분석 방법론 본문

Big Data/Analysis

분석 방법론

nathan_H 2019. 6. 12. 21:23

데이터 분석 기법에도

다양한 기법이 있드시

데이터 분석하는 프로세스

분석 방법론에도

몇가지가 있어 소개하고자 한다.

 

KDD 분석론

 

KDD는 대표적인 분석 방법론으로

Knowledge Discovery in Databases라고 불리운다.

 

 

절차는 총 5단계로 진행이 된다.

 

1. Data Selection

가장 첫번째로는 분석을 하기 위핸

데이터들을 데이터 베이스 혹은 원데이터에서

선택해서 가져오는 단계이다.

 

 

2. Data Preprocessing

두번째 단계로는 추출해온 분석 대사용 데이터 셋에

포함되어 있는 이상치와 결측치등을 식별하고 필요시 제거하는

과정으로 가공하여 데이터 셋을 정제해주는 단계이다.

 

 

3. Data Transformation

 

세번째로는 전처리 과정을 통해 정제된 데이터를

목적에 맞게 변수를 생성하거나 선택 혹은 차원을 축소하여

효율적인 데이터 마이잉을 할 수 있도록 데이터를 변환하는 과정이다.

 

 

4. Data Mining

 

네번째는 본격적으로 정제하고 변환한 데이터를

모델링 즉 데이터 마이닝/ 알고리즘 기법을 선택해

적용하는 과정이다.

 

 

5. Interpretation / Evalution

그리고 마지막은 모델/ 알고리즘에 적용하는 것으로 

끝내는 것이 아닌 결과에 따른 해석과 평가까지

진행을 해줘야 비로서 KDD 분석 방법론 과정이 마무리가 된다

 

 

CRISP-DM

 

CRISP-DM은 주로 산업계에서 많이 

쓰는 분석 방법론으로 총 6단계로 진행이 된다.

 

 

1. Business Understanding

데이터 분석에 앞서 비즈니스 관점에서

프로젝트의 목적과 요구사항을 이해하는 단계로써

도메인 지식을 데이터 분석을 위한 문제정의로 변경,

초기 프로젝트 계획을 수립하는 단계이다.

 

 

2. Data Understanding

 

그리고 이제 계획을 수립한 후에는

분석을 위한 데이터를 수집하고 데이터에 대한 

속성을 이해하는 단계를 거친다.

 

 

3. Data Preparation

그 다음으로 분석을 위해서

수집된 데이터를 분석기법에 적합한 데이터에

편성하는 단계로 분석용 데이터, 데이터 정제, 검증용 데이터 셋등을 준비한다.

 

 

4. Modeling

준비를 마친 데이터를 이제 다양한 모델링 기법에 

적용하는 과정으로 알고리즘을 선택하고

모델링 과정에서 사용되는 파라미터를 최적화해나가는 단계이다.

 

 

5. Evalution

모델링이 끝난 후 그 결과를 가지고

프로젝트 목적에 부합하는지 평가하는 단계를 거친다.

 

 

6. Deployment

그리고 마지막으로 평가까지 마친 

완성된 모델을 실제 업무에 적용하기 위한

계획을 수립 및 유지보수 계획을 수립하하는 단계로 

CRISP-DM 분석은 마무리가 된다.

 

 

 

빅데이터 분석 방법론

사실 분석 방법론은

상황이나 목적에 따라

세분화된 단계는

많이 달라질 수 있으나

대부분은 비슷한 프로세스로 진행이 된다.

 

1. Planning

비즈니스 도메인과 문제점을 인식, 

분석 계획 및 프로젝트 수행계획을 수립.

 

 

2. Preparing

비즈니스 요구사항과 데이터 분석에

필요한 원천 데이터 정의 및 준비

 

 

3. Analyzing

원천 데이터를 분석용 데이터 셋으로

편성하고 다양한 분석 기법과

알고리즘을 이용하여 데이터를 분석.

 

4. Developing

분석 기획에 맞는 모델을 도출하고 

이를 운영중인 가동 시스템에 적용.

 

5. Deploying

데이터 분석 및 시스템 구현 단계를 수행한 후,

프로젝트의 성과를 평가/ 발전 계획 수립.

 

위와 같은 단계는 데이터 분석에 있어

필수적인 단계이기 때문에

데이터 분석을 하기전, 그리고 하는 과정에서

저 프로세스를 잘 인지하고 적용하면 큰 도움이 될 것이다.

 

분석 과제 발굴 방법론
1. Top-Down approach

하향식 접근 방식으로 문제가 주어지고

이에 대한 해법을 찾기 위하여

각 과정이 체계적으로 단계화 되어

수행하는 방식이다.

 

2. Botton-Up approach

상향식 접근 방식으로 문제 정의

자체가 어렵운 경우 데이터를 기반으로

문제 정의 및 해결방을 탐색하고

이를 지속적으로 개선하는 방식이다.

'Big Data > Analysis' 카테고리의 다른 글

빅데이터 분석 방법 및 활용 사례  (0) 2019.06.12
데이터 분석이란?  (0) 2019.06.12
빅데이터 시대의 위기 요인  (0) 2019.06.12
Comments