nathan_H
분석 방법론 본문
데이터 분석 기법에도
다양한 기법이 있드시
데이터 분석하는 프로세스
분석 방법론에도
몇가지가 있어 소개하고자 한다.
KDD 분석론
KDD는 대표적인 분석 방법론으로
Knowledge Discovery in Databases라고 불리운다.
절차는 총 5단계로 진행이 된다.
1. Data Selection
가장 첫번째로는 분석을 하기 위핸
데이터들을 데이터 베이스 혹은 원데이터에서
선택해서 가져오는 단계이다.
2. Data Preprocessing
두번째 단계로는 추출해온 분석 대사용 데이터 셋에
포함되어 있는 이상치와 결측치등을 식별하고 필요시 제거하는
과정으로 가공하여 데이터 셋을 정제해주는 단계이다.
3. Data Transformation
세번째로는 전처리 과정을 통해 정제된 데이터를
목적에 맞게 변수를 생성하거나 선택 혹은 차원을 축소하여
효율적인 데이터 마이잉을 할 수 있도록 데이터를 변환하는 과정이다.
4. Data Mining
네번째는 본격적으로 정제하고 변환한 데이터를
모델링 즉 데이터 마이닝/ 알고리즘 기법을 선택해
적용하는 과정이다.
5. Interpretation / Evalution
그리고 마지막은 모델/ 알고리즘에 적용하는 것으로
끝내는 것이 아닌 결과에 따른 해석과 평가까지
진행을 해줘야 비로서 KDD 분석 방법론 과정이 마무리가 된다
CRISP-DM
CRISP-DM은 주로 산업계에서 많이
쓰는 분석 방법론으로 총 6단계로 진행이 된다.
1. Business Understanding
데이터 분석에 앞서 비즈니스 관점에서
프로젝트의 목적과 요구사항을 이해하는 단계로써
도메인 지식을 데이터 분석을 위한 문제정의로 변경,
초기 프로젝트 계획을 수립하는 단계이다.
2. Data Understanding
그리고 이제 계획을 수립한 후에는
분석을 위한 데이터를 수집하고 데이터에 대한
속성을 이해하는 단계를 거친다.
3. Data Preparation
그 다음으로 분석을 위해서
수집된 데이터를 분석기법에 적합한 데이터에
편성하는 단계로 분석용 데이터, 데이터 정제, 검증용 데이터 셋등을 준비한다.
4. Modeling
준비를 마친 데이터를 이제 다양한 모델링 기법에
적용하는 과정으로 알고리즘을 선택하고
모델링 과정에서 사용되는 파라미터를 최적화해나가는 단계이다.
5. Evalution
모델링이 끝난 후 그 결과를 가지고
프로젝트 목적에 부합하는지 평가하는 단계를 거친다.
6. Deployment
그리고 마지막으로 평가까지 마친
완성된 모델을 실제 업무에 적용하기 위한
계획을 수립 및 유지보수 계획을 수립하하는 단계로
CRISP-DM 분석은 마무리가 된다.
빅데이터 분석 방법론
사실 분석 방법론은
상황이나 목적에 따라
세분화된 단계는
많이 달라질 수 있으나
대부분은 비슷한 프로세스로 진행이 된다.
1. Planning
비즈니스 도메인과 문제점을 인식,
분석 계획 및 프로젝트 수행계획을 수립.
2. Preparing
비즈니스 요구사항과 데이터 분석에
필요한 원천 데이터 정의 및 준비
3. Analyzing
원천 데이터를 분석용 데이터 셋으로
편성하고 다양한 분석 기법과
알고리즘을 이용하여 데이터를 분석.
4. Developing
분석 기획에 맞는 모델을 도출하고
이를 운영중인 가동 시스템에 적용.
5. Deploying
데이터 분석 및 시스템 구현 단계를 수행한 후,
프로젝트의 성과를 평가/ 발전 계획 수립.
위와 같은 단계는 데이터 분석에 있어
필수적인 단계이기 때문에
데이터 분석을 하기전, 그리고 하는 과정에서
저 프로세스를 잘 인지하고 적용하면 큰 도움이 될 것이다.
분석 과제 발굴 방법론
1. Top-Down approach
하향식 접근 방식으로 문제가 주어지고
이에 대한 해법을 찾기 위하여
각 과정이 체계적으로 단계화 되어
수행하는 방식이다.
2. Botton-Up approach
상향식 접근 방식으로 문제 정의
자체가 어렵운 경우 데이터를 기반으로
문제 정의 및 해결방을 탐색하고
이를 지속적으로 개선하는 방식이다.
'Big Data > Analysis' 카테고리의 다른 글
빅데이터 분석 방법 및 활용 사례 (0) | 2019.06.12 |
---|---|
데이터 분석이란? (0) | 2019.06.12 |
빅데이터 시대의 위기 요인 (0) | 2019.06.12 |