Two-sample independent t-test 기본 콘텐츠로 건너뛰기

Two-sample independent t-test

두 그룹의 모평균 비교를 위한 검정을 할 때 가장 많이 사용되는 방법 중 한 개인 2-sample independent t-test가 있다.


두 그룹 비교를 위해 가장 많이 사용되는 방법 중 한 검정법인데, 여러 까다로운(?) 가정들이 있다.

Two-sample independent t-test 통계검정법 중에서도 모수적 검정법을 사용하려면 다음과 같은 가정들을 모두 만족해야 한다.

📌 Assumption 1

- 두 샘플 그룹은 서로 독립일 것

📌 Assumption 2

- 두 샘플 그룹의 평균이 모두 정규성을 만족할 것

- 모집단이 아님! "샘플 그룹의 평균"이 정규분포를 따라야 한다는 것 ⇨ 중심극한정리

📌 Assumption 3

- 두 샘플 그룹의 분산이 등분산일 때와, 이분산 일때를 구별해야 함.


2 sample independent t-test를 실시할 때, 위 가정을 어떻게 만족해야 하는지 예시를 통해 살펴보자.

📏 북미에 위치한 A 도시와 중앙아시아에 위치한 B 도시 주민들의 키 평균을 비교하고자 한다. 

내 가설은 A 도시 주민과 B 도시 주민들의 키는 유의미하게 차이가 있다는 것이다.

⇨ 귀무가설과 대립가설은 다음과 같다.

- Null hypothesis (귀무가설=영가설) : 

A 지역 주민의 키 평균 = B 지역 주민의 키 평균

- Alternative hypothesis (대립가설) : 

A 지역 주민의 키 평균 ≠ B 지역 주민의 키 평균

단, 대립가설은 나의 가설이 어떠냐에 따라 (ex. A>B, B>A) 달라질 수 있다.


A 도시에는 100 만 명의 주민이 살고 있고, B 도시에는 50만 명의 주민이 살고 있다고 해보자.

✔️ A 도시 사람들의 키와 B 도시 사람들의 키는 독립이다. (Assumption1 만족)

위 가설을 검정하기 위해서 총 150 만 명에 해당하는 모든 주민의 키를 전수조사하는 것은 불가능에 가깝다. 

따라서 우선 각 지역의 주민들을 랜덤으로 뽑아(=랜덤샘플링), 각 지역을 대표할 수 있는 표본을 구해야 할 것이다. 

이를 위해 각 도시를 대표할 수 있는 주민 100명을 각각 뽑아 평균을 조사하였다.


원래 정석으로는 주민 100명(=sample size)을 여러 번(예를 들어 30번=number of samples) 추출을 해야한다.

이렇게 예를 들어 30번을 추출한다 가정하면, 총 30개의 표본평균이 나올 것이고, 이 표본 평균들이 정규분포를 따르게 되는 것이다. (=중심극한정리)

그러나 현실적인 문제로 이렇게 샘플링을 하는 것은 많은 경우 불가능하므로, 첫 번째 샘플링 그룹의 표본평균을 보고, 이를 사용하게 된다.

중심극한정리에 따라 표본의 평균은 정규분포를 따른다.

즉, A 도시 주민의 키의 분포는 다음과 같다. 

$$ N(\mu_{1},\sigma^{2}) $$

한편 B 도시 주민의 키의 분포는 아래와 같다. 

$$ N(\mu_{2},\sigma^{2}) $$

 ✔️ A 도시 사람들의 키와 B 도시 사람들의 키는 정규성을 만족한다. (Assumption2 만족)

보통은 A도시에서 뽑힌 샘플과 B도시에서 뽑힌 샘플을 각각 shapiro-wilks 검정을 통해 정규성을 만족하는지 살펴본다.

여기서 잠깐❗

통계학을 배울 때 매우 중요하다고 배우는 것이 있는데, 바로 "중심극한정리"이다. 모집단의 분포가 어떠하더라도, 표본 평균은 정규분포를 따른다는 것이다.

만약 모집단이 포아송 분포를 따르고, 랜덤샘플링으로 표본을 30개씩 뽑는다면, 이 표본의 평균의 분포는 정규분포를 따른다. 모집단의 개체 수가 10,000 개이고, 30개 씩 100번 랜덤샘플링을 하면 100개의 표본 평균 분포은 정규분포를 보이게 된다. 

따라서 원래는 랜덤샘플링을 여러 번 해야 정확하지만, 현실적으로는 불가능하기 때문에 한 번의 랜덤샘플링을 하고 이 표본의 평균이 모집단의 평균을 대표한다고 할 수 있다.

그런데..

 ❓❓ '샘플이 30개 이상이면 근사적으로 정규분포를 따르니까 정규성검정 안해도 된다고 했는데?' 

t-test 검정에 있어 정규성 가정에 대해서는 말이 많다. 결론적으로는 샘플이 크면 정규성 가정을 무시하고 t-test를 해도 좋지만, 그 상세한 이유는 나중에 다루기로 한다.


 ✔️ 마지막으로 두 그룹의 등분산 검정을 실시하여 두 그룹의 분산이 비슷하다면 통계프로그램에서 등분산의 조건을 주어 t-test를 진행하면 된다. 

 만약 등분산 검정에서 두 그룹의 분산이 다르다면 welch 검정 (or Satterthwaite)를 사용하면 된다.

댓글

이 블로그의 인기 게시물

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

Odds Ratio and Relative Risk ; 오즈비와 상대위험도

  Odds Ratio 는 임상에서 매우 많이 사용되는 개념이다. 그러나 'Odds' 라는 개념이 직관적으로 잘 와닿지 않기 때문에 흔히 오용되기도 하는 개념이라 가장 먼저 잡고가야 할 주제로 삼았다.   오즈비는 범주형 자료에서 사용되는데, 오즈비를 보면서 가장 많이 접하게 될  2X2 분할표는 다음과 같이 생겼다.   Event Normal Total Exposed A B A + B Non-exposed C D C + D 흔히 하는 실수가 오즈비(Odds Ratio)를 해석할 때, 상대위험도(Relative risk)를 해석하듯이 한다는 점이다. 따라서 오즈비와 상대위험도의 각 개념에 대해서 살펴보고 넘어가도록 하자.   ❗Odds Ratio와 Relative Risk의 공통점 : 상대적인 비율 을 나타낸다. Public health / Medical 에서 Odds Ratio or Relative Risk를 사용하는 이유 - 어떤 조건에서 더 위험한지를 수치적으로 나타내기 위해서 사용 한다. 예를 들면, "흡연(조건)"을 하는 사람은 비흡연자에 비해 "폐암(Event)" 발생에 있어서 몇 배가 더 위험한가? 와 같은 질문에 대한 해답으로 많이 사용된다.   ✅위와 같은 2X2 이차원 분할표에서 Odds Ratio (오즈비) 의 수식적 정의 는 다음과 같다. P1 = A/(A+B) ; P2 = C/(C+D) Odds1 = P1/(1-P1) ; Odds2 = P2/(1-P2) Odds Ratio = Odds1/Odds2 = A*D/B*C ✅ 한편 2X2 분할표에서 Relative Risk (상대위험도) 의 수식적 정의 는 ...

Odds Ratio and Relative Risk ; 오즈비와 상대위험도 part. 2

 지난 글에서 2X2 분할표에서 많이 사용되는 오즈비와 상대위험도의 개념에 대해서 살펴보았다. 그 중에서도 지난 글에서는 오즈비를 사용할 수밖에 없는 경우에 대해 살펴보았다.  상대위험도가 직관적으로 이해하기 쉽고 위험비에 대한 쉬운 해석을 가능하게 하지만, 그럼에도 불구하고 보건 or 의학 계열에서 오즈비를 많이 사용 할 수밖에 없는 이유에 대해 살펴보았다. 또한 오즈비와 상대위험도는 가끔 동일하게 해석되기도 한다. (자세한 내용은 이전 글로..) 그럼 이번 글에서는 오즈비와 상대위험도를 동일하게 해석할 수 있는 경우 에 대해 살펴보도록 하겠다. 먼저 다음과 같은 오즈비의 특성을 이해해야 한다. 오즈비의 중요 특성: 상대적인 위험도를 과장하는 측면 이 있다. 이는 굉장히 중요한 오즈비의 특성인데, Relative Risk 값보다 항상 큰 값을 가진다. 그리고 이는 해당 Event가 흔하게 일어날 수록 더욱 더 과장 된다. 📋예를 들어 보자. 따듯한 차를 마셨을 때와 방안 온도의 차를 마셨을 때 체온이 상승하는지 아니면 그대로 유지되는지에 대해 조사하고 다음과 같은 분할표를 얻었다.   체온 상승 유지 Total Warm tea 90 10 100 Normal temp 20 180 200 먼저 Relative Risk 상대위험도 를 구해보자. $$ \frac{90/100}{20/200} = 9 $$ 이번엔 Odds Ratio 오즈비 를 구해보자. (유도과정은 이전 글 참고) $$ \frac{90 * 180}{20 * 10} = 81 $$ 이번엔 방금 구한 상대위험도와 오즈비를 해석해보자. 📉 RR : 상대위험도는 9로, 이는 따듯한 차를 마신다면 체온이 상승할 확률이 방안 온도의 차를 마셨을 때보다 체온이 상승할 확률...