nathan_H
Supervised Learning - Regression, Classification 본문
Supervised Learning에는
크게 Regression과 classification으로
종류가 나뉜다.
*다시 보는 Supervised Learning
- 각 데이터에 정답(label)이 주어져 있고 레이블이 있는
데이터들의 집합은 training set이라고도 한다.
즉 레이블이 나눠진 데이터를 모델화 하여
세로운 데이터에 대해 정확한 출력을 예측하는 것을 말한다.
Regression
회귀분석은 간단하게 말해
연속적인 숫자, 즉 예측값이 float 형태인
문제들을 해결하는데 사용된다.
예시 1)
지하철 역과의 거리. 학군의 수 마트 수 등등
여러 feature들로 어떤 지역의 땅값을
예측하는 문제.
예시 2)
출처 - https://www.androidhuman.com/ml/2018/03/04/ml_for_everyone_basics_01/
시험 공부에 투자한 시간(변수)에 따라 예상되는
기말고사 점수(0~100 사이의 연속적인 값)을
추측하는 모델.
다음은 시험 공부에 투자한 시간과
실제로 획득한 성적을 담고 있는 트레이닝 세트입니다.
X (TIME SPENT FOR EXAM) Y (SCORE)
10 | 90 |
9 | 80 |
3 | 50 |
2 | 30 |
앞의 트레이닝 세트로 학습시킨 화귀분석 모델을 사용한다면,
시험 공부에 7시간을 투자한 학생의
예상 점수를 대략 75점 정도로 예측할 수 있을 것입니다.
즉 위에 예시들 처럼
출력에 연속성이 있다는 것이다.
이 연속성 중에 어디에 점을 찍을 수 있는가를
예측 할 수 있는 것이 회귀문제이다.
Classification
분류는 회귀와 반대로
어떤 변수에 영향을 받는 결과를
연속적이지 않은 값들로 나눌 때 사용된다.
위 공부시간에 대한 점수 예시를
공부 시간 투자한 시간에 따른
합격 여부(pass/fail)혹은 학점을
추측하는 모델을 말한다.
즉 class를 예측하는 모델이다.
1) Binary classification
Binary classification은 말 그대로
예측해야할 class가 두가지인 경우이다
예를 들어 예/아니오, 맞다/틀리다 등등을 말한다.
2) Multi-class classification
Multi-class classification은
예측할 class가 여러가지인 경우을 말한다
위에 학점 분류 예시처럼 A/B/C/D나
자기계발/인문/소설 와 같이
여러개의 class을 가지고 분류하는 것을 뜻한다.
'Big Data > ML' 카테고리의 다른 글
Artificial Neural Networks (0) | 2019.04.16 |
---|---|
Deep Learning intro - Perceptron (0) | 2019.04.16 |
Linear Regression, Classification (0) | 2019.04.12 |
Bayesian network. (0) | 2019.04.10 |
Decision Tree (0) | 2019.04.10 |