ABOUT ME

-

  • [n122] 자유도, Chi-square Test, ANOVA 분산 분석
    AI 부트캠프 2021. 9. 17. 10:07

    가설 검정 방법

    미리 설정한 가설이 맞는지 아닌지 확인하는 방법을 가설 검정이라 부른다. 확인하고자 하는 가설에 따라 가설 검정 방법이 다르다. 평균을 비교하고 싶을 때는 T-test, ANOVA(Analysis of Variance) 등이 있다. 분포를 확인하고자 할 때는 Chi-square test 방법이 있다. 또한 샘플 개수에 따라 One sample, Two sample 등으로 세분화 된다.

     

     

    자유도 (Degree of Freedom)

    [네이버 사전] 주어진 조건하에서 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소. 

    숫자 세개의 평균이 4일 때, x=4, y=4 라면 z는 4여야 한다. 그러므로 자유도는 n개 중에서 n-1이다. (x, y 값만 정할 수 있고 나머지 z 값은 정할 수 없으므로)

    즉, 데이터를 선택할 수 있는 수.

     

     

    T-Test + 

     

    • 독립성 : 두 집단이 서로 연관성이 있는가.
    • 등분산성 : 집단간에 scail이 어느 정도 유사한가.
    • 정규성 : 데이터가 정규성을 나타내는가. 
      • scipy.stats.normaltest 가 정규성을 판단함. 
    •  t-test는 특정한 조건에서 그룹의 평균을 비교하기 위한 가설검정 방법이다.

     

     

     

    Non-Parametric Methods

    수치 값이 나올 수 없는 카테고리형 파라미터를 non-parametric이라고 부른다. 

    • Categorical 데이터를 위한 모델링
    • 혹은 극단적 outlier가 있는 경우 매우매우 유효한 방식
    •  
      • Chisquare
      • Spearman correlation
      • Run test
      • Kolmogorov Smirnov
      • Mann-Whitney U
      • Wilcoxon
      • Kruskal-Wallis 등distribution free method라고 부르기도 함.

      Kruskal-Wallis Test (비모수적 평균 비교법)
      Type of Error
    • 실제 상황과 가설 검정의 결과가 다를 때 나올 수 있다.
    •  
    • 데이터의 평균을 비교하는 비모수적 방법 중 하나.
    •  

     

     

     

     Tests (Chi-square Test)

    분포, 빈도, 비율 등에 대해 검정. 주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지 에 대한 가설검정.

    Goodness of Fit test라 부르기도 한다.

     

    Two sample Chi-square test

    두 집단간의 독립성이 있는지 검정.

    • 귀무 가설 : 서로 독립적이다.
    • 대립 가설 : 서로 독립적이지 않다.

     

    Numerical -> Categorial

    Type casting

    numerical 이지만, continuous하지 않아 바로 category로 사용 할 수 있는 경우.

    ex) 1, 2, 3 -> 1, 2, 3

    Binning

    numerical 이지만, continuous 해서 구간별로 나누어 사용 할 수 있는 경우.

    ex) 1.4, 2, 3.1, 2.8, 1.1, 2.5 -> A : 1 ~ 2, B : 2 ~ 3, C : 3 ~ 4

     

     

     

    ANOVA 분산 분석 

    • Analysis of Variance
    • ANOVA 분산 분석 : 모집단이 셋 이상이 경우, 이들의 평균이 서로 동일한지 검정.
    • 대립 가설 : 적어도 하나의 모집단의 평균에 차이가 있다.
    • 귀무 가설 : 모집단의 평균에 차이가 없다.
    A = [38, 33, 35, 92, 76, 97, 88, 41, 11, 9]
    B = [18, 52, 62, 48, 30, 40, 87, 12, 97, 82]
    C = [28, 90, 5, 49, 66, 73, 96, 80, 4, 17]
    D = [8, 99, 4, 12, 7, 64, 18, 10, 9, 20]
    
    # 분산 분석은 f분포를 따르는 f 통계량을 사용. (ANOVA는 F검정)
    stats.f_oneway(A, B, C, D)

    F_onewayResult(statistic=1.7249594239128412, pvalue=0.17920877113948797)

    Pvalue = 0.17920877113948797 이므로 0.05보다 크다. 즉 귀무 가설 "모집단의 평균에 차이가 없다"를 채택 한다.

     

     

     

    부트캠프 공부 내용 한 눈에 보기

     

    [인덱스] 코드 스테이츠 AI 부트캠프

    구성 2021.09.09 ~ 2022.04 (총 28주) 배우는 내용 Section 1. 데이터 분석 입문 SPRINT 1. EDA SPRINT 2. Statistics SPRINT 3. DAY 1 EDA 데이터 전처리 Pandas in Colab 가설 검정 (t-test) T-Test 행렬 및 벡..

    da-journal.com

     

    댓글