일치도 통계와 paired t-test 기본 콘텐츠로 건너뛰기

일치도 통계와 paired t-test

Why using a paired t test to assess agreement is problematic? by Nikolaos Pandis

https://doi.org/10.1016/j.ajodo.2021.07.001


Agreement를 평가함에 있어 paired t-test를 사용하는 논문들이 몇 있다. 

임상논문에서 의료기기가 측정한 것의 일치성, 혹은 의료행위자 A와 B가 측정한 것이 비슷한지를 측정하는 일들이 꽤 많은데, 여전히 많은 논문들에서 paired t-test에서 p>0.05 라는 통계 결과를 얻었을 때 '두 기기에서 측정한 수치는 일치한다.' 혹은 '의사A와 의사B가 측정한 수치는 일치한다.' 라는 결과를 내린다.


통계를 배울 때, "짝지어진 두 모집단의 차이를 보고 싶을 때는 paired t-test를 사용한다." 라고 많이들 배우는데, 아마 이렇게 배우기(?) 때문에 '그럼 paired t-test의 p-value가 0.05보다 크면 두 집단 간 차이가 없다는 것이겠네?'라고 많은 사람들의 생각이 이어지는듯하다.


그러나 내가 통계적으로 살펴보고 싶은 것이 "Agreement"라면 paired t-test를 사용하는 것은 잘못 되었다.


그 이유에 대해서는 다음 두 개의 시나리오를 이용해 설명해보도록 하겠다.


시나리오A와 시나리오B에는 시간 차이를 두고 같은 subject를 측정한 Time1 수치와 Time2 수치가 있다. 시나리오A와 시나리오B 모두 Time1과 Time2에서 측정된 수치의 평균은 10.45로 동일하다.


✔️먼저 시나리오A를 살펴보자.

시나리오A에서 Time1과 Time2의 평균은 10.45로 동일하므로, 차이 d의 평균도 0이고 따라서 paired t-test를 진행하면 p-value가 1로 나올 것이다. 

그럼 Time1과 Time2가 동일한 수치를 냈다고 결론지을 수 있는가?

시나리오A의 각 subject를 대상으로 시간 차이를 두고 측정한 Time1과 Time2는 [-9 ~ 12] 까지 꽤 큰 차이가 있다. 


✔️이번에는 시나리오B를 살펴보자. 

여기에서도 마찬가지로 Time1과 Time2의 평균은 10.45로 동일하며, 차이 d의 평균 역시 0이다. 그렇기에 시나리오B의 데이터로 paired t-test를 진행하면 p-value 1을 얻을 것이다. 시나리오A와 다른 점은 각 subject에서 Time1과 Time2의 차이가 [-2 ~ 1]로 훨씬 작다는 점이다.


paired t-test 결과, 시나리오B는 시나리오A와 같이 p-value가 1이므로 두 경우 모두 "불일치의 증거가 없다. -> 두 측정치는 일치한다."라고 결론 내릴 수 있을까?

Paired t-test의 귀무가설은 "두 그룹의 모평균의 차이는 없다." 이므로, 시나리오A에서 p-value가 1이기 때문에 귀무가설을 기각할 수 없고, 따라서 불일치의 증거가 없다는 잘못된 해석이다.


❌두 측정 간의 agreement를 통계적으로 측정하고자 할 때, paired t-test를 사용한다는 것부터 잘못되었다. 직관적으로도 시나리오A와 시나리오B에서 같은 결과를 내는 것은 잘못 되었다고 보인다.


✔️그럼 왜 이런 문제가 발생할까?

이러한 문제는 각각의 observation을 살펴보는 것이 아니고 "평균"을 살펴보기 때문에 발생한다. 예를 들어, 임상시험처럼 '투여군'과 '대조군' 간, 정말 전반적인 "그룹" 간의 차이가 중요할 때에는 paired t-test를 사용할 수 있다. 그러나 각 observation의 차이가 중요한 Agreement를 살펴보고자 할 때 paired t-test를 사용하면 위의 예시처럼 평균의 함정에 빠질 수 있다.

 

 

댓글

이 블로그의 인기 게시물

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

Odds Ratio and Relative Risk ; 오즈비와 상대위험도

  Odds Ratio 는 임상에서 매우 많이 사용되는 개념이다. 그러나 'Odds' 라는 개념이 직관적으로 잘 와닿지 않기 때문에 흔히 오용되기도 하는 개념이라 가장 먼저 잡고가야 할 주제로 삼았다.   오즈비는 범주형 자료에서 사용되는데, 오즈비를 보면서 가장 많이 접하게 될  2X2 분할표는 다음과 같이 생겼다.   Event Normal Total Exposed A B A + B Non-exposed C D C + D 흔히 하는 실수가 오즈비(Odds Ratio)를 해석할 때, 상대위험도(Relative risk)를 해석하듯이 한다는 점이다. 따라서 오즈비와 상대위험도의 각 개념에 대해서 살펴보고 넘어가도록 하자.   ❗Odds Ratio와 Relative Risk의 공통점 : 상대적인 비율 을 나타낸다. Public health / Medical 에서 Odds Ratio or Relative Risk를 사용하는 이유 - 어떤 조건에서 더 위험한지를 수치적으로 나타내기 위해서 사용 한다. 예를 들면, "흡연(조건)"을 하는 사람은 비흡연자에 비해 "폐암(Event)" 발생에 있어서 몇 배가 더 위험한가? 와 같은 질문에 대한 해답으로 많이 사용된다.   ✅위와 같은 2X2 이차원 분할표에서 Odds Ratio (오즈비) 의 수식적 정의 는 다음과 같다. P1 = A/(A+B) ; P2 = C/(C+D) Odds1 = P1/(1-P1) ; Odds2 = P2/(1-P2) Odds Ratio = Odds1/Odds2 = A*D/B*C ✅ 한편 2X2 분할표에서 Relative Risk (상대위험도) 의 수식적 정의 는 ...

Odds Ratio and Relative Risk ; 오즈비와 상대위험도 part. 2

 지난 글에서 2X2 분할표에서 많이 사용되는 오즈비와 상대위험도의 개념에 대해서 살펴보았다. 그 중에서도 지난 글에서는 오즈비를 사용할 수밖에 없는 경우에 대해 살펴보았다.  상대위험도가 직관적으로 이해하기 쉽고 위험비에 대한 쉬운 해석을 가능하게 하지만, 그럼에도 불구하고 보건 or 의학 계열에서 오즈비를 많이 사용 할 수밖에 없는 이유에 대해 살펴보았다. 또한 오즈비와 상대위험도는 가끔 동일하게 해석되기도 한다. (자세한 내용은 이전 글로..) 그럼 이번 글에서는 오즈비와 상대위험도를 동일하게 해석할 수 있는 경우 에 대해 살펴보도록 하겠다. 먼저 다음과 같은 오즈비의 특성을 이해해야 한다. 오즈비의 중요 특성: 상대적인 위험도를 과장하는 측면 이 있다. 이는 굉장히 중요한 오즈비의 특성인데, Relative Risk 값보다 항상 큰 값을 가진다. 그리고 이는 해당 Event가 흔하게 일어날 수록 더욱 더 과장 된다. 📋예를 들어 보자. 따듯한 차를 마셨을 때와 방안 온도의 차를 마셨을 때 체온이 상승하는지 아니면 그대로 유지되는지에 대해 조사하고 다음과 같은 분할표를 얻었다.   체온 상승 유지 Total Warm tea 90 10 100 Normal temp 20 180 200 먼저 Relative Risk 상대위험도 를 구해보자. $$ \frac{90/100}{20/200} = 9 $$ 이번엔 Odds Ratio 오즈비 를 구해보자. (유도과정은 이전 글 참고) $$ \frac{90 * 180}{20 * 10} = 81 $$ 이번엔 방금 구한 상대위험도와 오즈비를 해석해보자. 📉 RR : 상대위험도는 9로, 이는 따듯한 차를 마신다면 체온이 상승할 확률이 방안 온도의 차를 마셨을 때보다 체온이 상승할 확률...