회귀
-
[n213] Ridge RegressionAI 부트캠프 2021. 10. 20. 15:22
One-hot Encoding 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼z럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식. - 순서가 없는 범주형 자료 : 명목형 (Nominal) - 순서가 있는 범주형 자료 : 순서형 (Ordinal) 순서가 의미 없는 범주들은 one-hot 인코딩 하는 것이 좋다. 각 카테고리에 해당하는 변수들이 모두 차원에 더해지므로 카테고리가 너무 많은 경우 (high cardinality)에는 사용하기 적합하지 않다. 세 개의 컬럼이지만 2개가 정해지면 나머지 하나는 자동으로 결정되므로 (셋 중 하나의 값이 1이므로), 두개만 넣는다 -> 다중공산성 문제 방지. Regularization 이상치를 조절. weight를 조정하기 위해 규제를 한다..
-
[회귀] 다항 회귀 및 과대/과소 적합머신러닝 & 딥러닝 2021. 10. 18. 21:51
1 Polynomial Regression과 오버피팅/언더피팅 이해 회귀식이 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현. 다항 회귀는 선형 회귀. 선형/비선형 회귀를 나누는 기준은 회귀 계수의 선형/비선형 여부. 독립 변수의 선형/비선형 여부는 무관. 1.1 사이킷런에서의 다항 회귀 사이킷런에서 다항회귀를 API로 제공하지 않음. PolynomialFeatures 클래스로 원본 단항 피처들을 다항 피처들로 변환한 데이터 세트에 LinearRegression 객체를 적용하여 다항회귀 기능 제공. PolynomialFeatures : 원본 피처 데이터 세트를 기반으로 degree 차수에 따른 다항식을 적용하여 새로운 피처들을 생성하는 클래스 피처 엔지니어링 기법 중의 하나. 사이킷런..
-
[n211] Simple RegressionAI 부트캠프 2021. 10. 18. 15:10
Classification & Regression 지도 학습 (Supervised classification)은 크게 분류, 회귀로 나뉜다. 하지만 회귀는 다른 지도 학습과는 조금 다른 면이 있다. Property Supervised Classification Regression Output type 이산값 (category 값) 연속값 (숫자값) What are you trying to find Decision boundary "Best fit line" Evaluation Accuracy "Sum of Squared error" or R^2 기준 모델 (Baseline Model) 최소한의 성능을 나타내는 기준이 되는 모델로, 모델 성능을 판단할 때 기준이 되는 모델을 뜻한다. 예를 들어, 평균값을 ..