머신러닝
-
[텍스트] 텍스트 분석 (Text Tokenization & CountVectorizer)머신러닝 & 딥러닝 2021. 11. 23. 11:00
텍스트 분석 (Text Analysis) NLP (Natural Language Processing) 인간의 언어를 이해하고 해석하는데 더 중점을 둔다. NLP 기술의 발전으로 텍스트 분석도 더욱 정교하게 발전. 텍스트 분석 모델을 수립하고 정보를 추출해 BI나 예측 분석 등의 분석 작업을 주로 수행한다. 텍스트 분석 주요 영역 텍스트 분류 (Text classification) : 어떤 카테고리에 속하는지 자동으로 분류하거나 스팸 메일 검출 같은 프로그램. 지도학습을 적용. 감성 분석 (Sentiment Analysis) : 주관적인 요소를 분석하는 기법. 소셜 미디어 감정 분석, 영화나 제품에 대한 긍정 또는 리뷰 등. 지도학습 뿐만 아니라 비지도 학습을 이용해 적용. 텍스트 요약 (Summariza..
-
[분류] 캐글 Credit Card Fraud Detection머신러닝 & 딥러닝 2021. 10. 31. 20:26
Kaggle 문제 Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent or genuine www.kaggle.com ML 모델 구축 Feature Engineering : 정규 분포, Log 변환, 이상치 제거, SMOTE 오버 샘플링 ML Algorithm : Logistic Regression, LightGBM Log 변환 왜곡된 분포도를 가진 데이터 세트를 비교적 정규 분포에 가깝게 변환해주는 feature engineering 방식 IQR (Inter Quantile Range)를 이용한 Outlier Removal 1분위, 2분위, 3분위, 4분위로 나눈다. 그 중 1/4분위수 Q1 ~ 3/4 ..
-
[분류] 앙상블머신러닝 & 딥러닝 2021. 10. 14. 21:43
앙상블 Learning 여러개의 분류기를 생성하여 그 예측을 결합 앙상블 학습 유형 : Voting, Bagging, Boosting, Stacking 등Voting Classifier 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식 서로 다른 알고리즘을 가진 분류기를 결합 Hard Voting 다수결 원칙과 비슷 Soft Voting 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 이들 중 확률이 가장 높은 레이블 값을 최종 보팅 결과값으로 선정 일반적으로 하드 보팅보다 예측 성능이 더 좋다. import pandas as pd from sklearn.ensemble import VotingClassifier from sklearn.linear_model import Log..
-
[사이킷런] 교차 검증 (KFold, Statified KFold)머신러닝 & 딥러닝 2021. 9. 28. 14:54
교차 검증 학습 데이터 세트 : 학습 데이터를 분할하여 학습 데이터와 검증 데이터로 나눔. 테스트 데이트 세트 : 모든 학습/검증 과정이 완료된 후 최종적으로 성능을 평가하기 위함. 교차 검증은 수능을 보기 전, 모의 고사를 여러차례 보는 개념이다. 데이터 편증을 막기 위해 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행한다. 대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤, 테스트 데이터 세트를 적용해 평가는 프로세스다. K-Fold 교차 검증 가장 보편적인 교차 검증 기법이다. K개의 데이터 폴드 세트를 만든 뒤, k번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행한다. k=5 일 경우, 총 5개의 폴드 세트에 5번의 학습과 검증 평..