Two-sample independent t-test 기본 콘텐츠로 건너뛰기

Two-sample independent t-test

두 그룹의 모평균 비교를 위한 검정을 할 때 가장 많이 사용되는 방법 중 한 개인 2-sample independent t-test가 있다.


두 그룹 비교를 위해 가장 많이 사용되는 방법 중 한 검정법인데, 여러 까다로운(?) 가정들이 있다.

Two-sample independent t-test 통계검정법 중에서도 모수적 검정법을 사용하려면 다음과 같은 가정들을 모두 만족해야 한다.

📌 Assumption 1

- 두 샘플 그룹은 서로 독립일 것

📌 Assumption 2

- 두 샘플 그룹의 평균이 모두 정규성을 만족할 것

- 모집단이 아님! "샘플 그룹의 평균"이 정규분포를 따라야 한다는 것 ⇨ 중심극한정리

📌 Assumption 3

- 두 샘플 그룹의 분산이 등분산일 때와, 이분산 일때를 구별해야 함.


2 sample independent t-test를 실시할 때, 위 가정을 어떻게 만족해야 하는지 예시를 통해 살펴보자.

📏 북미에 위치한 A 도시와 중앙아시아에 위치한 B 도시 주민들의 키 평균을 비교하고자 한다. 

내 가설은 A 도시 주민과 B 도시 주민들의 키는 유의미하게 차이가 있다는 것이다.

⇨ 귀무가설과 대립가설은 다음과 같다.

- Null hypothesis (귀무가설=영가설) : 

A 지역 주민의 키 평균 = B 지역 주민의 키 평균

- Alternative hypothesis (대립가설) : 

A 지역 주민의 키 평균 ≠ B 지역 주민의 키 평균

단, 대립가설은 나의 가설이 어떠냐에 따라 (ex. A>B, B>A) 달라질 수 있다.


A 도시에는 100 만 명의 주민이 살고 있고, B 도시에는 50만 명의 주민이 살고 있다고 해보자.

✔️ A 도시 사람들의 키와 B 도시 사람들의 키는 독립이다. (Assumption1 만족)

위 가설을 검정하기 위해서 총 150 만 명에 해당하는 모든 주민의 키를 전수조사하는 것은 불가능에 가깝다. 

따라서 우선 각 지역의 주민들을 랜덤으로 뽑아(=랜덤샘플링), 각 지역을 대표할 수 있는 표본을 구해야 할 것이다. 

이를 위해 각 도시를 대표할 수 있는 주민 100명을 각각 뽑아 평균을 조사하였다.


원래 정석으로는 주민 100명(=sample size)을 여러 번(예를 들어 30번=number of samples) 추출을 해야한다.

이렇게 예를 들어 30번을 추출한다 가정하면, 총 30개의 표본평균이 나올 것이고, 이 표본 평균들이 정규분포를 따르게 되는 것이다. (=중심극한정리)

그러나 현실적인 문제로 이렇게 샘플링을 하는 것은 많은 경우 불가능하므로, 첫 번째 샘플링 그룹의 표본평균을 보고, 이를 사용하게 된다.

중심극한정리에 따라 표본의 평균은 정규분포를 따른다.

즉, A 도시 주민의 키의 분포는 다음과 같다. 

$$ N(\mu_{1},\sigma^{2}) $$

한편 B 도시 주민의 키의 분포는 아래와 같다. 

$$ N(\mu_{2},\sigma^{2}) $$

 ✔️ A 도시 사람들의 키와 B 도시 사람들의 키는 정규성을 만족한다. (Assumption2 만족)

보통은 A도시에서 뽑힌 샘플과 B도시에서 뽑힌 샘플을 각각 shapiro-wilks 검정을 통해 정규성을 만족하는지 살펴본다.

여기서 잠깐❗

통계학을 배울 때 매우 중요하다고 배우는 것이 있는데, 바로 "중심극한정리"이다. 모집단의 분포가 어떠하더라도, 표본 평균은 정규분포를 따른다는 것이다.

만약 모집단이 포아송 분포를 따르고, 랜덤샘플링으로 표본을 30개씩 뽑는다면, 이 표본의 평균의 분포는 정규분포를 따른다. 모집단의 개체 수가 10,000 개이고, 30개 씩 100번 랜덤샘플링을 하면 100개의 표본 평균 분포은 정규분포를 보이게 된다. 

따라서 원래는 랜덤샘플링을 여러 번 해야 정확하지만, 현실적으로는 불가능하기 때문에 한 번의 랜덤샘플링을 하고 이 표본의 평균이 모집단의 평균을 대표한다고 할 수 있다.

그런데..

 ❓❓ '샘플이 30개 이상이면 근사적으로 정규분포를 따르니까 정규성검정 안해도 된다고 했는데?' 

t-test 검정에 있어 정규성 가정에 대해서는 말이 많다. 결론적으로는 샘플이 크면 정규성 가정을 무시하고 t-test를 해도 좋지만, 그 상세한 이유는 나중에 다루기로 한다.


 ✔️ 마지막으로 두 그룹의 등분산 검정을 실시하여 두 그룹의 분산이 비슷하다면 통계프로그램에서 등분산의 조건을 주어 t-test를 진행하면 된다. 

 만약 등분산 검정에서 두 그룹의 분산이 다르다면 welch 검정 (or Satterthwaite)를 사용하면 된다.

댓글

이 블로그의 인기 게시물

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...