-
[n122] 자유도, Chi-square Test, ANOVA 분산 분석AI 부트캠프 2021. 9. 17. 10:07
가설 검정 방법
미리 설정한 가설이 맞는지 아닌지 확인하는 방법을 가설 검정이라 부른다. 확인하고자 하는 가설에 따라 가설 검정 방법이 다르다. 평균을 비교하고 싶을 때는 T-test, ANOVA(Analysis of Variance) 등이 있다. 분포를 확인하고자 할 때는 Chi-square test 방법이 있다. 또한 샘플 개수에 따라 One sample, Two sample 등으로 세분화 된다.
자유도 (Degree of Freedom)
[네이버 사전] 주어진 조건하에서 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소.
숫자 세개의 평균이 4일 때, x=4, y=4 라면 z는 4여야 한다. 그러므로 자유도는 n개 중에서 n-1이다. (x, y 값만 정할 수 있고 나머지 z 값은 정할 수 없으므로)
즉, 데이터를 선택할 수 있는 수.
T-Test +
- 독립성 : 두 집단이 서로 연관성이 있는가.
- 등분산성 : 집단간에 scail이 어느 정도 유사한가.
- 정규성 : 데이터가 정규성을 나타내는가.
- scipy.stats.normaltest 가 정규성을 판단함.
- t-test는 특정한 조건에서 그룹의 평균을 비교하기 위한 가설검정 방법이다.
Non-Parametric Methods
수치 값이 나올 수 없는 카테고리형 파라미터를 non-parametric이라고 부른다.
- Categorical 데이터를 위한 모델링
- 혹은 극단적 outlier가 있는 경우 매우매우 유효한 방식
-
- Chisquare
- Spearman correlation
- Run test
- Kolmogorov Smirnov
- Mann-Whitney U
- Wilcoxon
- Kruskal-Wallis 등distribution free method라고 부르기도 함.
Kruskal-Wallis Test (비모수적 평균 비교법)
Type of Error - 실제 상황과 가설 검정의 결과가 다를 때 나올 수 있다.
- 데이터의 평균을 비교하는 비모수적 방법 중 하나.
Tests (Chi-square Test)
분포, 빈도, 비율 등에 대해 검정. 주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지 에 대한 가설검정.
Goodness of Fit test라 부르기도 한다.
Two sample Chi-square test
두 집단간의 독립성이 있는지 검정.
- 귀무 가설 : 서로 독립적이다.
- 대립 가설 : 서로 독립적이지 않다.
Numerical -> Categorial
Type casting
numerical 이지만, continuous하지 않아 바로 category로 사용 할 수 있는 경우.
ex) 1, 2, 3 -> 1, 2, 3
Binning
numerical 이지만, continuous 해서 구간별로 나누어 사용 할 수 있는 경우.
ex) 1.4, 2, 3.1, 2.8, 1.1, 2.5 -> A : 1 ~ 2, B : 2 ~ 3, C : 3 ~ 4
ANOVA 분산 분석
- Analysis of Variance
- ANOVA 분산 분석 : 모집단이 셋 이상이 경우, 이들의 평균이 서로 동일한지 검정.
- 대립 가설 : 적어도 하나의 모집단의 평균에 차이가 있다.
- 귀무 가설 : 모집단의 평균에 차이가 없다.
A = [38, 33, 35, 92, 76, 97, 88, 41, 11, 9] B = [18, 52, 62, 48, 30, 40, 87, 12, 97, 82] C = [28, 90, 5, 49, 66, 73, 96, 80, 4, 17] D = [8, 99, 4, 12, 7, 64, 18, 10, 9, 20] # 분산 분석은 f분포를 따르는 f 통계량을 사용. (ANOVA는 F검정) stats.f_oneway(A, B, C, D)
F_onewayResult(statistic=1.7249594239128412, pvalue=0.17920877113948797)
Pvalue = 0.17920877113948797 이므로 0.05보다 크다. 즉 귀무 가설 "모집단의 평균에 차이가 없다"를 채택 한다.
부트캠프 공부 내용 한 눈에 보기
[인덱스] 코드 스테이츠 AI 부트캠프
구성 2021.09.09 ~ 2022.04 (총 28주) 배우는 내용 Section 1. 데이터 분석 입문 SPRINT 1. EDA SPRINT 2. Statistics SPRINT 3. DAY 1 EDA 데이터 전처리 Pandas in Colab 가설 검정 (t-test) T-Test 행렬 및 벡..
da-journal.com
'AI 부트캠프' 카테고리의 다른 글
[n123] 중심 극한 정리 및 신뢰 구간 (0) 2021.09.23 [인덱스] 코드 스테이츠 AI 부트캠프 (1) 2021.09.20 [n121] T-Test (One-Sample T-Test, Two-Sample T-Test, Chi-Square Test) (0) 2021.09.16 [n121] 가설 검정 (t-test) (0) 2021.09.16 [n114] 미분 개념과 경사하강법 (0) 2021.09.14