[n122] 자유도, Chi-square Test, ANOVA 분산 분석

AI 부트캠프 2021. 9. 17. 10:07

가설 검정 방법

미리 설정한 가설이 맞는지 아닌지 확인하는 방법을 가설 검정이라 부른다. 확인하고자 하는 가설에 따라 가설 검정 방법이 다르다. 평균을 비교하고 싶을 때는 T-test, ANOVA(Analysis of Variance) 등이 있다. 분포를 확인하고자 할 때는 Chi-square test 방법이 있다. 또한 샘플 개수에 따라 One sample, Two sample 등으로 세분화 된다.

자유도 (Degree of Freedom)

[네이버 사전] 주어진 조건하에서 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소.

숫자 세개의 평균이 4일 때, x=4, y=4 라면 z는 4여야 한다. 그러므로 자유도는 n개 중에서 n-1이다. (x, y 값만 정할 수 있고 나머지 z 값은 정할 수 없으므로)

즉, 데이터를 선택할 수 있는 수.

T-Test +

독립성 : 두 집단이 서로 연관성이 있는가.
등분산성 : 집단간에 scail이 어느 정도 유사한가.
정규성 : 데이터가 정규성을 나타내는가.
- scipy.stats.normaltest 가 정규성을 판단함.
t-test는 특정한 조건에서 그룹의 평균을 비교하기 위한 가설검정 방법이다.

Non-Parametric Methods

수치 값이 나올 수 없는 카테고리형 파라미터를 non-parametric이라고 부른다.

Categorical 데이터를 위한 모델링
혹은 극단적 outlier가 있는 경우 매우매우 유효한 방식
- Chisquare
- Spearman correlation
- Run test
- Kolmogorov Smirnov
- Mann-Whitney U
- Wilcoxon
- Kruskal-Wallis 등distribution free method라고 부르기도 함.
Kruskal-Wallis Test (비모수적 평균 비교법)
Type of Error
실제 상황과 가설 검정의 결과가 다를 때 나올 수 있다.
데이터의 평균을 비교하는 비모수적 방법 중 하나.

Tests (Chi-square Test)

분포, 빈도, 비율 등에 대해 검정. 주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지 에 대한 가설검정.

Goodness of Fit test라 부르기도 한다.

Two sample Chi-square test

두 집단간의 독립성이 있는지 검정.

귀무 가설 : 서로 독립적이다.
대립 가설 : 서로 독립적이지 않다.

Numerical -> Categorial

Type casting

numerical 이지만, continuous하지 않아 바로 category로 사용 할 수 있는 경우.

ex) 1, 2, 3 -> 1, 2, 3

Binning

numerical 이지만, continuous 해서 구간별로 나누어 사용 할 수 있는 경우.

ex) 1.4, 2, 3.1, 2.8, 1.1, 2.5 -> A : 1 ~ 2, B : 2 ~ 3, C : 3 ~ 4

ANOVA 분산 분석

Analysis of Variance
ANOVA 분산 분석 : 모집단이 셋 이상이 경우, 이들의 평균이 서로 동일한지 검정.
대립 가설 : 적어도 하나의 모집단의 평균에 차이가 있다.
귀무 가설 : 모집단의 평균에 차이가 없다.

A = [38, 33, 35, 92, 76, 97, 88, 41, 11, 9]
B = [18, 52, 62, 48, 30, 40, 87, 12, 97, 82]
C = [28, 90, 5, 49, 66, 73, 96, 80, 4, 17]
D = [8, 99, 4, 12, 7, 64, 18, 10, 9, 20]

# 분산 분석은 f분포를 따르는 f 통계량을 사용. (ANOVA는 F검정)
stats.f_oneway(A, B, C, D)

F_onewayResult(statistic=1.7249594239128412, pvalue=0.17920877113948797)

Pvalue = 0.17920877113948797 이므로 0.05보다 크다. 즉 귀무 가설 "모집단의 평균에 차이가 없다"를 채택 한다.

부트캠프 공부 내용 한 눈에 보기

[인덱스] 코드 스테이츠 AI 부트캠프

구성 2021.09.09 ~ 2022.04 (총 28주) 배우는 내용 Section 1. 데이터 분석 입문 SPRINT 1. EDA SPRINT 2. Statistics SPRINT 3. DAY 1 EDA 데이터 전처리 Pandas in Colab 가설 검정 (t-test) T-Test 행렬 및 벡..

da-journal.com

저작자표시 비영리 변경금지

'AI 부트캠프' 카테고리의 다른 글

[n123] 중심 극한 정리 및 신뢰 구간 (0)	2021.09.23
[인덱스] 코드 스테이츠 AI 부트캠프 (1)	2021.09.20
[n121] T-Test (One-Sample T-Test, Two-Sample T-Test, Chi-Square Test) (0)	2021.09.16
[n121] 가설 검정 (t-test) (0)	2021.09.16
[n114] 미분 개념과 경사하강법 (0)	2021.09.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ABOUT ME

엔지니어 한다운의 저널