-
[n134] ClusteringAI 부트캠프 2021. 10. 1. 11:27
Scree Plots
R - 주성분분석
주성분분석(PCA : Principal component analysis)에 대해서 정리해보겠다. 내용이 방대하다보니 요약설...
blog.naver.com
Machine Learning 개요
지도 학습 (Supervised Learning)
데이터에 답, 라벨이 있을 대 사용 가능하다.
- 분류 (Classification) : 데이터를 기준에 따라 카테고리화 하기 위해 사용하는 알고리즘이다.
- 회귀 (Regression, Prediction) : 연속 데이터를 이용해서 결과를 예측하기 위한 알고리즘이다.
비지도 학습 (Unsupervised Learning)
- 클러스터링 (Clustering) : 데이터를 유사한 데이터끼리 그룹화 시키는 방법이다.
- 차원 축소 (Dimensionality Reduction) : 모델링할 때 성능을 높이고자 높은 차원을 축소하는 방법이다.
강화 학습 (Reinforcement Learning)
머신러닝의 한 방법이다. 보상/처벌 피드백을 통해서 기계 학습을 시키는 형태이다.
Clustering
주어진 데이터가 서로 얼마나 유사한지를 알 수 있다. 보통 EDA를 위한 방법으로 쓰이고, 예측을 위한 모델링으로 쓰이지는 않는다.
Clustering의 종류
- Hierarchical
- Agglomerative
- Divisive
- Point Assignment
- Hard vs. Soft Clustering
- Hard clustering : 한 데이터는 하나의 클러스터에만 할당된다.
- Soft clustering : 한 데이터는 여러 클러스터에 할당 가능하다.
Similarity
일반적으로 많이 쓰이는 방식은 Euclidean 이다. 그러나 각 목적에 따라서 다른 방식 또한 사용된다. 예시로 Euclidean, Cosine, Jaccard, Edit Distance 등이 있다.
K-Means Clustering
n-차원의 데이터가 존재 할 때,
1) k 개의 클러스터를 만들고자 할 때, k개의 랜덤 데이터를 cluster의 중심점으로 설정한다.
2) 각 cluster에 근처에 있는 데이터를 해당 cluster로 할당한다.
3) 새로 추가된 데이터에 대해서 각 cluster의 중심점을 새로 계산한다.
cluster에 의미 있는 변화가 없을 때 까지 위의 과정(2, 3번)을 반복한다.
from sklearn.cluster import KMeans kmeans = KMeans(n_clusters = 2, random_state=42) kmeans.fit(df_standardized) labels = kmeans.labels_ print(labels)
중심점 (Centroid) 계산
중심점 (Centroid)는 각 클러스터 내부에서 가장 중심에 위치한 점을 의미한다.
부트캠프 공부 내용 한 눈에 보기
[인덱스] 코드 스테이츠 AI 부트캠프
구성 2021.09.09 ~ 2022.04 (총 28주) 배우는 내용 Section 1. 데이터 분석 입문 SPRINT 1. EDA SPRINT 2. Statistics SPRINT 3. DAY 1 EDA 데이터 전처리 Pandas in Colab 가설 검정 (t-test) T-Test 행렬 및 벡..
da-journal.com
'AI 부트캠프' 카테고리의 다른 글
[n211] Simple Regression (0) 2021.10.18 [프로젝트] 게임 설계를 위한 데이터 분석 (0) 2021.10.13 [n133] 고유벡터/고유값/PCA (0) 2021.09.30 [n132] 선형 대수 (0) 2021.09.29 [n131] 벡터 및 행렬 (0) 2021.09.28