Hands-On Machine Learning 7

[핸즈온머신러닝] CH.9 비지도 학습 (Unsupervised Learning)

목차 1. 군집 (Clustering) 1.1 k-평균 1.2 k-평균의 한계 2. DBSCAN 2.1 DBSCAN 동작 원리 2.2 DBSCAN을 활용하여 새로운 샘플의 클러스터 예 3. 가우시안 분포 4. 가우시안 혼합 모델 (Gaussian mixture model) 이란? 4.1 가우시안 혼합 모델(GMM)의 그래프 모형 4.2 기댓값-최대화(EM) 알고리즘 4.2.1 초기화 4.2.2 기대값 단계 4.2.3 최대화 단계 4.2.4 EM 알고리즘 정리 4.3 이상치 탐지 4.4 클러스터 개수 선택하기 5. 베이즈 가우시안 혼합 모델(BayesianGaussianMixture model) 5.1 베이즈 가우시안 혼합 모델 모형 5.2 베이즈 정리 비지도 학습이란? 비지도 학습인 라벨링이 되어 있지 ..

[핸즈온머신러닝] CH8. 차원 축소 (Dimension Reduction)

목차 0. 차원이란? 1. 차원축소란? 2. 차원축소를 하는 이유 3. 차원의 저주 3.1. 차원의 저주란? 3.2. 차원의 저주를 극복하는 방법 4. 차원을 축소하는 방법 4.1 변수 선택 (feature selection) 4.2 변수 추출 (feature extraction) 5. 차원축소를 위한 두가지 접근방법 5.1 투영 5.2 매니폴드 6. 차원축소기법 6.1 pca 7. 차원축소의 한계 0. 차원이란? 기하학적의미에서 차원(dimension)이란 공간 내에 있는 점의 위치를 나타내기 위해 필요한 축의 개수입니다. 즉, 어떤 데이터(점)의 특징(위치)을 서술하는 데 사용되는 독립적인 특성(차원)의 개수라고 생각할 수 있습니다. 따라서 이러한 차원을 축소하거나 확장하여 여러 문제들을 해결할 수 ..

[핸즈온머신러닝] CH7. 앙상블(Ensemble) 학습

목차 앙상블 기법이란? 앙상블 기법의 종류 보팅 배깅, 페이스팅 랜덤 포레스트 부스팅 스태킹 1. 앙상블 기법이란? 여러개의 학습 모델(분류, 회귀 ...) 을 학습하여 학습된 각 모델에서 예측을 만들어 낸 후 그 예측들을 결합하여 보다 정확도가 높은 예측을 만들어 내는 기법이다 이러한 앙상블기법에는 보팅 (하드, 소프트), 배깅, 페이스팅, 부스팅 등 다양한 기법들이 존재하고 있 2. 앙상블 기법의 종류 2.1 Voting 보팅 (투표 기반 분류기) 보팅 보팅은 말 그대로 같은 데이터셋을 통해서 각 모델들을 학습시키고 이들의 예측을 투표를 통해서 최적의 예측으로 만들어 내는 방법으로 하드 보팅과 소프트 보팅이 있다. 2.1.1 하드 보팅(Hard voting)과 소프트 보팅(Soft voting) 하드..

[핸즈온머신러닝] CH6. 결정 트리(Decision Tree)

목차 결정 트리란 결정 트리 학습과 시각화 클래스 확률 추청 CART 훈련 알고리즘 계산 복잡도 지니 불순도 또는 엔트로피 규제 매개변수 회귀 불안정성 1. 결정 트리란 서보트벡터머신 (SVM)처럼 분류와 회귀 작업 그리고 다중출력 작업도 가능한 다재다능한 머신러닝 알고리즘 복잡한 데이터셋도 가능. 쉽게 말해 스무고개와 비슷한 원리이며 랜덤 포레스트의 기본 구성요소 이기도함 결정 트리는 직관적이고 결정 방식을 이해하기 쉬운 화이트박스 모델임 2. 결정트리(Decision Tree) 학습과 시각화 2.1 데이터 불러오기 import pandas as pd from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data..

[핸즈온머신러닝] CH5. 서포트 벡터 머신(Support Vector Machine; SVM)

목차 5.0 SVM이란 5.1 선형 SVM 분류 5.1.1 소프트 마진 분류 5.2 비선형 SVM 분류 5.2.1 다항식 커널 5.2.2 유사도 특징 5.2.3 가우시안 RBF 커널 5.2.4 시간 복잡도 5.3 SVM 회귀 5.0 SVM 이란 SVM(Support Vector Machins)이란 매우 강력한 머신러닝 알고리즘으로 머신러닝을 배운 사람이라면 반드시 알고 있어야 하는 모델입니다. 선형이나 비선형 분류, 회귀, 이상치 탐지에도 사용할 수 있는 다목적 머신러닝 알고리즘으로 특히 분류 에서 성능이 뛰어나기 때문에 주로 분류에 많이 사용된다. 위 그림에서 Seprarating Hyper-plane은 일종의 Decision Boundary 결정경계이다. Decision Boundary란 분류를 하기..

[핸즈온머신러닝] CH4. 모델 훈련 (Training Model)

목차 0. 학습 목표 1. 선형 회귀 2. 정규 방정식 3. 경사하강법 4. 로지스틱 회귀 0. 학습 목표 최적화(optimization)란, loss 함수(손실함수, 비용함수)를 최소화하는 parameter를 구하는 과정입니다. 딥러닝 네트워크에서는 예측값과 실제값을 loss 함수를 통해 비교하며 예측값과 실제값이 가까워지도록, 즉 loss 함수가 최소가 되도록 parameter를 업데이트합니다. 가장 간단한 모델 중 하나인 선형 회귀로부터 직접 계산할 수 있는 공식을 사용하여 훈련 세트에 대해 loss 함수를 최소화하는 parameter를 해석적으로 구합니다. 반복적인 최적화 방식-경사 하강법(gradient descent)-을 사용하여 parameter를 조금씩 바꾸면서 loss 함수를 최소화시키는..

[핸즈온머신러닝] CH3. 분류 (Classification)

last update. 2022/11/27 * 핸즈온 머신러닝에 나온 목차대로 진행하지 않았습니다. 분류의 종류에 대해 설명한 다음 성능 측정을 설명합니다. 목차 1. 분류란? 2. 분류의 종류 2.1 이진 분류 2.2 다중 분류 2.3 다중 레이블 분류 2.4 다중 출력 분류 3. 성능 측정 3.1 교차 검증 3.2 오차 행렬 3.3 정확도 3.4 정밀도 3.5 재현율 3.6 정밀도/재현율 트레이드 오프 3.7 ROC 곡선 3.8 F1 스코어 4. 에러 분석 1. 분류란? 분류는 대표적인 지도학습의 예시로 기존에 존재하는 데이터를 사용해 모델을 학습시킨 후, 새롭게 관측된 데이터를 학습된 모델을 이용해 어느 클래스에 속하는지 예측하는 것을 의미한다. 2. 분류의 종류 분류의 종류에는 크게 4가지가 있다..