목록Big Data/ML (18)
nathan_H
참고 Blog http://sanghyukchun.github.io/69/ Machine learning 스터디 (13) Clustering (K-means, Gaussian Mixture Model) - README 들어가며 첫 번째 글에서 설명했던 것 처럼 Machine Learning은 크게 Supervised Learning, Unsupervised Learning 그리고 Reinforcement Learning으로 구분된다. 앞서 이미 그 중 Supervised Learning을 간략하게 다룬 글이 있었고, 이 글에서는 그 중 Unsupervised Learning의 가장 대표적인 예시인 Clustering 대해 다룰 것이며 가장 대표적이고 간단한 두 가지 알 sanghyukchun.github..
참고 블로그 - http://sanghyukchun.github.io/70/ Machine learning 스터디 (14) EM algorithm - README 들어가며 EM 알고리즘은 latent variable이 존재하는 probabilistic model의 maximum likelihood 혹은 maximum a posterior 문제를 풀기 위한 알고리즘 중 하나이다. 굉장히 많은 probabilistic 모델을 풀기 위해 널리 사용되는 알고리즘 중 하나이며, iterative한 알고리즘 중 하나이다. Clustering에서 다뤘던 GMM은 물론이고, HMM, RBM 등의 문제를 해결하는데 있어서도 사용되 sanghyukchun.github.io EM Algorithms E : Expectati..
Hierarchical Clustering Hierarchical Clustering은 뜻 그대로 계층 군집화로 비슷한 군집끼리 묶어 가면서 최종 적으로는 하나의 케이스가 될때까지 군집을 묶는 클러스터링 알고리즘이다. (K-means와 다르게 미리 군집 개수를 정하는 것이 아니라 학습을 하면서 스스로 군집 개수를 정한다.) 알고리즘 진행은 다음과 같다 1) 각 데이터들을 cluster라고 가정 2) 각 데이터 pair 사이의 distance 계산 3) 가장 distance가 작은 pair를 하나의 cluster로 묶음 4) 모든 데이터가 하나의 cluster로 묶이지 않으면2)반복 예시 참고 자료 - http://www.datamarket.kr/xe/board_mXVL91/9807 데이터분석 - 8.군집..
Ensemble 앙상블이란 여러개의 weak learning을 만들어 학습 시킨후 결합시켜 최종 결과를 만드는 기법이다. 그리고 여러개의 weak learning을 만들고 그 결과를 결합시켜 최종 결정을 함으로써 다음과 같은 장점들을 가지고 있다. 1) Error 최소화 - 다양한 모델의 결과를 종합하여 전반적으로 오류를 줄여준다. 2) Overfitting 감소 - 각 모델별 bias가 존재하고 다양한 bias를 종합하여 결과를 생성하게 되어, overfitting을 줄여줌. 3) Low bias, High Variance - Variance을 줄이기 위한 기법. 이러한 장점으로 Ensemble은 많은 성능 향상 효과를 가지고 있다. 직관적으로 해석하자면 많이 다양하게 학습시키고 그 결과를 종합해 최종..
joint distribution이 주어졌을 때, 즉, 두 개가 동시에 일어날 확률이 주어졌을 때, variable 하나에 대해서 관심이 없는 상태입니다. 예를 들어서 동전을 두 개를 던집니다. 그런데, 이 동전 두 개가 독립적이지 않다고 합시다. 첫번째 동전이 어떻게 나오느냐에 따라서, 두번재 동전이 head이냐, tail이냐가 바뀐다고 했을 때, 그런데 어느 순간 보니까 첫번째 동전은 아무 의미가 없는 것 같습니다. 만약 우리가 두번째 동전이 head가 나온 것이 중요하다고 생각한다면, 두번째 동전이 head가 나온 case에 대해서 첫번째 동전의 case를 모두 더합니다. 그럼 그것이 marginalize라는 것입니다. 여러 개의 확률 변수로 구성된 조합 확률분포(joint distribution)..
KNN알고리즘이란 Instance-Based-Learning(Memory-based learning)로 학습 데이터로부터 임의의 모델 파라메터를 학습하는 것이 아닌, 학습데이터와 테스트 데이터를 직접 '비교' 하는 알고리즘이다. (Non - Parametric) 그리고 결국 학습 데이터의 Lable을 이용하요 사용하는 분류하는 문제이기 때문에 지도학습에 속한다. 동작 원리. 예시를 통해 동작원리를 알아보자. k = 1일 경우는 제일 가까운 C만 고려, -> 동그라미로 분류. K = 2 일경우 C,D,E 까지 고려 (다수결 원칙) -> 세모로 분류 K= 5 일때 ,C, D, E, B, A 까지 고려. 동그라미로 분류. Euclidean Distance KNN도 k를 정하기 전에 선행되되어야 하는 작업이 있..
K-means 알고리즘. k-means알고리즘 대표적인 분리형 군집화 알고리즘 가운데 하나이며, 말그래도 k개 평균으로 군집을 나눠주는 알고리즘이다. 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 형성한다. 그래서 k-means알고리즘 적용시 사용자가 사전에 군집 수를 정해야 한다. K가 hyperparameter라는 이야기이다. 수식은 아래와 같다. 여기 rnk는 n번째 데이터가 k번째 cluster에 속하면 1, 아니면 0인 값을 가지는 binary variable이며, ck는 k번쟤 cluster의 중심을 뜻한다. 즉 k-means clustering 을 실행한다는 것은 주어진 데이터 x에 대하여 rnk와 ck 값을 설정하는 것과 같다. k-means의 표..
본내용은 순천향대학교 정영섭 교수님과 관련 블로그를 참조한 글입니다. 블로그 list -https://ratsgo.github.io/machine%20learning/2017/05/23/SVM/ - https://wikidocs.net/5719 Support Vector Machine B1, B2선중에 머가 더 두개의 labe을 잘 나눈 선이라고 생각하는가?? 아마 대부분 B1이라고 말을 할것이다. 이것이 SVM에 Motivation이자 SVM을 가장 잘 설명하는 내용이다. 즉 SVM는 데이터 클래스를 분류하는 목적으로 어떻게 하면 클래스를 잘 나누어줄수 있을까라는 생각에서 시작이 된거라고 볼수 있고 데이터 클래스를 가장 잘나누어주는 decision boundary를 구하는 과정이다. Support Ve..