분류 전체보기
-
[프로젝트] 게임 설계를 위한 데이터 분석AI 부트캠프 2021. 10. 13. 21:18
섹션 1 프로젝트는 다음 분기에 설계할 게임을 위해 게임 출고량 데이터를 분석하는 것이다. 사용된 데이터는 1980년부터 2016년까지의 게임 출고량 데이터셋입니다. 먼저, 연도별 게임 장르 트렌드 그래프를 보면 액션, 어드벤쳐, 롤플레잉, 슈팅, 스포츠 장르가 크게 인기를 끌었습니다. 위 데이터의 연도를 10년 단위로 묶어, 네 분류로 나누었습니다. 파이팅, 플랫폼, 레이싱, 시뮬레이션, 전략 게임 출고량이 하락한 것을 확인할 수 있습니다. 각 지역별로 게임 출고량을 봤을 때, 파란색인 북미와 하늘색 유럽 출고량이 가장 높습니다. 전체 데이터인 노란색을 보면, 2010년 전후로 크게 하락한 것을 확인할 수 있습니다. 급격하게 출고량이 감소하는 원인을 찾고자 넷플릭스 수익 데이터를 가져왔습니다. 파란색 ..
-
[평가] 정확도/정밀도/재현율/F1 스코어/ROC AUC머신러닝 & 딥러닝 2021. 10. 5. 17:06
분류 (Classification) 성능 평가 지표 정확도 Accuracy 오차 행렬 Confusion Matrix 정밀도 Precision 재현율 Recall F1 스코어 ROC AUC 정확도 정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 직관적으로 모델 예측 성능을 나타내는 평가 지표 이진 분류의 경우 정확도 하나만 갖고 성능을 평가하지 않는다 불균형한 레이블 값 분포에서 ML 모델의 성능을 판단할 경우, 적합한 평가 지표가 아니다. 성능 평가의 잘못된 예 이진 분류의 경우 데이터의 구성에 따라 ML모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만으로 성능 평가를 하지 않는다. 남자인 경우 사망, 여자인 경우 생존으로 예측해도 알고리즘이 높은 정확도를 나타내는 상황 발생..
-
[사이킷런] 타이타닉 생존자 예측하기머신러닝 & 딥러닝 2021. 10. 1. 19:25
1 데이터 전처리 Null 처리 불필요한 속성 제거 인코딩 수행 2 모델 학습 및 검증/예측/평가 결정트리, 랜덤 포레스트, 로지스틱 회귀 학습 비교 k폴드 교차 검증 cross_val_score(), GridSearchCV() 수행 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline titanic_df = pd.read_csv('./titanic_train.csv') titanic_df.head(3) 2.1 Null 값 처리 titanic_df['Age'].fillna(titanic_df['Age'].mean(), inplace=True) titanic_d..
-
[n134] ClusteringAI 부트캠프 2021. 10. 1. 11:27
Scree Plots R - 주성분분석 주성분분석(PCA : Principal component analysis)에 대해서 정리해보겠다. 내용이 방대하다보니 요약설... blog.naver.com Machine Learning 개요 지도 학습 (Supervised Learning) 데이터에 답, 라벨이 있을 대 사용 가능하다. 분류 (Classification) : 데이터를 기준에 따라 카테고리화 하기 위해 사용하는 알고리즘이다. 회귀 (Regression, Prediction) : 연속 데이터를 이용해서 결과를 예측하기 위한 알고리즘이다. 비지도 학습 (Unsupervised Learning) 클러스터링 (Clustering) : 데이터를 유사한 데이터끼리 그룹화 시키는 방법이다. 차원 축소 (Dime..
-
[n133] 고유벡터/고유값/PCAAI 부트캠프 2021. 9. 30. 11:52
Linear Transformation 선형 변환은 벡터들을 더하거나 스칼라 값을 곱하는 것으로, 선형 변환을 했을 때 방향은 변하지 않고 크기만 변한다. 고유 벡터 (Eigenvector) 고유 벡터는 선형 변환을 취했을 때, 방향은 변하지 않고 크기만 변하는 벡터이다. 그 변한 크기가 고유 값 (eigenvalue)이다. 정방행렬 A(n x n인 경우)에 대해 위 식이 성립하는 0이 아닌 벡터 x가 존재 할 때, 람다 상수를 행렬 A의 고유값이라고 하며, 벡터 x를 이에 대응하는 고유 벡터 라고 한다. 람다 상수 : 행렬 A의 고유 값 벡터 x : 고유 벡터 고유 값은 고유벡터 방향으로 얼만큼 크기가 커지는가를 의미한다. 고유값이 큰 순서대로 고유 벡터를 정렬하면, 중요한 순서대로 주성분을 구하는 것..
-
[사이킷런] 데이터 전처리 (Preprocessing)머신러닝 & 딥러닝 2021. 9. 29. 18:52
데이터 전처리 (Preprocessing) 데이터 클린징 결측치 처리 (Null, NaN 값) 데이터 인코딩 : 레이블, 원-핫 인코딩 데이터 스케일링 : 정규화, 표준화(단위 통일) 등 이상치 제거 : 아웃라이어 제거 Feature 선택, 추출 및 가공 머신러닝은 데이터의 영향을 받으므로, 깨끗하게 추출한 데이터가 중요하다. 데이터 인코딩 머신러닝 알고리즘은 문자열 데이터 속성을 입력 받지 않는다. 모든 데이터는 숫자형으로 표현되야 한다. 문자형 카테고리형 속성은 숫자값으로 변환/인코딩 되야한다. 레이블 인코딩 (Label) 문자형을 숫자값으로 바꾸는 것. [냉장고, 컴퓨터, 선풍기] -> [0, 1, 2] 로 변환 원-핫 인코딩 (One-hot) 새로운 피처를 추가하고 해당하는 컬럼에만 1을 표시, ..
-
[n132] 선형 대수AI 부트캠프 2021. 9. 29. 10:02
선형 조합 (Linear Combination) 두 벡터를 스케일링하고 더하는 것을 선형 조합이라 한다. a, b는 scalars이다. Span 벡터들의 선형 조합의 결과, 모든 조합을 Span이라 한다. Basis 벡터 공간 V의 basis는 V를 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음. (span과는 역개념) Rank 매트릭스의 rank는 매트릭스 열을 이루고 있는 벡터들도 만들 수 있는 span 공간의 차원. 선형 종속 (Linear Dependent) 벡터들 중 하나가 다른 벡터들의 선형 조합으로 표현 가능하다. 선형 독립 (Linear Independent) 각 각의 벡터가 기존 스팬에 또 다른 차원을 추가 가능한 경우. 정사영 (Projection) 분산 (Variance) 데이터..
-
[사이킷런] 교차 검증 (KFold, Statified KFold)머신러닝 & 딥러닝 2021. 9. 28. 14:54
교차 검증 학습 데이터 세트 : 학습 데이터를 분할하여 학습 데이터와 검증 데이터로 나눔. 테스트 데이트 세트 : 모든 학습/검증 과정이 완료된 후 최종적으로 성능을 평가하기 위함. 교차 검증은 수능을 보기 전, 모의 고사를 여러차례 보는 개념이다. 데이터 편증을 막기 위해 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행한다. 대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤, 테스트 데이터 세트를 적용해 평가는 프로세스다. K-Fold 교차 검증 가장 보편적인 교차 검증 기법이다. K개의 데이터 폴드 세트를 만든 뒤, k번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행한다. k=5 일 경우, 총 5개의 폴드 세트에 5번의 학습과 검증 평..