분류 전체보기
-
[분류] 캐글 Credit Card Fraud Detection머신러닝 & 딥러닝 2021. 10. 31. 20:26
Kaggle 문제 Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent or genuine www.kaggle.com ML 모델 구축 Feature Engineering : 정규 분포, Log 변환, 이상치 제거, SMOTE 오버 샘플링 ML Algorithm : Logistic Regression, LightGBM Log 변환 왜곡된 분포도를 가진 데이터 세트를 비교적 정규 분포에 가깝게 변환해주는 feature engineering 방식 IQR (Inter Quantile Range)를 이용한 Outlier Removal 1분위, 2분위, 3분위, 4분위로 나눈다. 그 중 1/4분위수 Q1 ~ 3/4 ..
-
[n214] Logistic RegressionAI 부트캠프 2021. 10. 21. 15:46
로지스틱 회귀는 이름은 회귀 이지만 분류문제를 해결한다. 훈련/검증/테스트 세트로 나누는 것은 머신러닝 모델 학습에서 매우 중요. 훈련데이터는 모델을 학습 하는데 사용한다. (즉, fit) 검증데이터는 모델 학습이 잘 되었는지 판단하기 위해서 사용한다. 이 때 검증 데이터 대신에 테스트 데이터를 사용하면 안된다. 마지막에 최종 모델을 평가 하기 위해서 테스트 데이터를 사용한다. 테스트 데이터는 단 한번만 사용하는 것을 주의해야 한다. 데이터가 많을 경우, 전체 데이터를 훈련/검증/테스트 세트로 나누면 되지만, 데이터 수가 적은 경우에는 보완하기 위해 K-fold 교차 검증을 사용한다. 모델 검증 분류 문제 (Classification) 회귀문제에서는 보통 타겟의 평균값(Mean)을 기준모델로 사용한다. ..
-
[n213] Ridge RegressionAI 부트캠프 2021. 10. 20. 15:22
One-hot Encoding 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼z럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식. - 순서가 없는 범주형 자료 : 명목형 (Nominal) - 순서가 있는 범주형 자료 : 순서형 (Ordinal) 순서가 의미 없는 범주들은 one-hot 인코딩 하는 것이 좋다. 각 카테고리에 해당하는 변수들이 모두 차원에 더해지므로 카테고리가 너무 많은 경우 (high cardinality)에는 사용하기 적합하지 않다. 세 개의 컬럼이지만 2개가 정해지면 나머지 하나는 자동으로 결정되므로 (셋 중 하나의 값이 1이므로), 두개만 넣는다 -> 다중공산성 문제 방지. Regularization 이상치를 조절. weight를 조정하기 위해 규제를 한다..
-
[회귀] Lidge/Lasso/ElasticNet머신러닝 & 딥러닝 2021. 10. 19. 21:57
1 규제 선형 회귀 개요 비용 함수 목표는 RSS를 최소화 하는 것이 목표. 회귀 모델은 적절히 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어해야 한다. 1.1 규제 선형 모델에서의 alpha의 역할 alpha=0인 경우, w(회귀 계수)가 커도 alpha*w2가 0이 되어 비용 함수는 min(RSS) alpha=무한대인 경우, alpha*w2도 무한대가 되므로 비용 함수는 w를 0에 가깝게 최소화 해야 한다. 1.2 규제 선형 회귀의 유형 비용 함수에 alpha 값으로 페널티를 부여해 회귀 계수 값의 크기를 감소시켜서 과적합 개선. 규제는 L2, L1 방식. L2 규제를 적용한 회귀가 릿지 회귀 L1 규제를 적용한 회귀가 라쏘 회귀. w의 절대값에 대해 패널티 부여. 영향력이 크지 ..
-
[회귀] 다항 회귀 및 과대/과소 적합머신러닝 & 딥러닝 2021. 10. 18. 21:51
1 Polynomial Regression과 오버피팅/언더피팅 이해 회귀식이 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현. 다항 회귀는 선형 회귀. 선형/비선형 회귀를 나누는 기준은 회귀 계수의 선형/비선형 여부. 독립 변수의 선형/비선형 여부는 무관. 1.1 사이킷런에서의 다항 회귀 사이킷런에서 다항회귀를 API로 제공하지 않음. PolynomialFeatures 클래스로 원본 단항 피처들을 다항 피처들로 변환한 데이터 세트에 LinearRegression 객체를 적용하여 다항회귀 기능 제공. PolynomialFeatures : 원본 피처 데이터 세트를 기반으로 degree 차수에 따른 다항식을 적용하여 새로운 피처들을 생성하는 클래스 피처 엔지니어링 기법 중의 하나. 사이킷런..
-
[n211] Simple RegressionAI 부트캠프 2021. 10. 18. 15:10
Classification & Regression 지도 학습 (Supervised classification)은 크게 분류, 회귀로 나뉜다. 하지만 회귀는 다른 지도 학습과는 조금 다른 면이 있다. Property Supervised Classification Regression Output type 이산값 (category 값) 연속값 (숫자값) What are you trying to find Decision boundary "Best fit line" Evaluation Accuracy "Sum of Squared error" or R^2 기준 모델 (Baseline Model) 최소한의 성능을 나타내는 기준이 되는 모델로, 모델 성능을 판단할 때 기준이 되는 모델을 뜻한다. 예를 들어, 평균값을 ..
-
[분류] 앙상블머신러닝 & 딥러닝 2021. 10. 14. 21:43
앙상블 Learning 여러개의 분류기를 생성하여 그 예측을 결합 앙상블 학습 유형 : Voting, Bagging, Boosting, Stacking 등Voting Classifier 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식 서로 다른 알고리즘을 가진 분류기를 결합 Hard Voting 다수결 원칙과 비슷 Soft Voting 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 이들 중 확률이 가장 높은 레이블 값을 최종 보팅 결과값으로 선정 일반적으로 하드 보팅보다 예측 성능이 더 좋다. import pandas as pd from sklearn.ensemble import VotingClassifier from sklearn.linear_model import Log..
-
[분류] 결정 트리머신러닝 & 딥러닝 2021. 10. 13. 21:23
1 분류 알고리즘 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것. 나이브 베이즈 : 베이즈 통계와 생성 모델에 기반 로지스틱 회귀 : 독립 변수와 종속 변수의 선형 관계성에 기반 결정 트리 : 데이터 균일도에 따른 규칙 기반 서포트 벡터 머신 : 개별 클래스 간의 최대 분류 마진을 효과적으로 찾음 최소 근접 알고리즘 : 근접 거리를 기준으로 함 신경망 : 심층 연결 기반 앙상블 : 서로 다른 (또는 같은) 머신러닝 알고리즘을 결합 2 결정 트리 주요 하이퍼 파라미터 max_depth : 트리의 최대 깊이 규정. 디폴트는 none max_features : 분할 하는데 고려..