교차검증
-
[사이킷런] 타이타닉 생존자 예측하기머신러닝 & 딥러닝 2021. 10. 1. 19:25
1 데이터 전처리 Null 처리 불필요한 속성 제거 인코딩 수행 2 모델 학습 및 검증/예측/평가 결정트리, 랜덤 포레스트, 로지스틱 회귀 학습 비교 k폴드 교차 검증 cross_val_score(), GridSearchCV() 수행 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline titanic_df = pd.read_csv('./titanic_train.csv') titanic_df.head(3) 2.1 Null 값 처리 titanic_df['Age'].fillna(titanic_df['Age'].mean(), inplace=True) titanic_d..
-
[사이킷런] 교차 검증 (KFold, Statified KFold)머신러닝 & 딥러닝 2021. 9. 28. 14:54
교차 검증 학습 데이터 세트 : 학습 데이터를 분할하여 학습 데이터와 검증 데이터로 나눔. 테스트 데이트 세트 : 모든 학습/검증 과정이 완료된 후 최종적으로 성능을 평가하기 위함. 교차 검증은 수능을 보기 전, 모의 고사를 여러차례 보는 개념이다. 데이터 편증을 막기 위해 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행한다. 대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤, 테스트 데이터 세트를 적용해 평가는 프로세스다. K-Fold 교차 검증 가장 보편적인 교차 검증 기법이다. K개의 데이터 폴드 세트를 만든 뒤, k번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행한다. k=5 일 경우, 총 5개의 폴드 세트에 5번의 학습과 검증 평..