Processing math: 0%
  McNemar Test (맥니마 검정법) - (2) 검정통계량 기본 콘텐츠로 건너뛰기

McNemar Test (맥니마 검정법) - (2) 검정통계량

앞선 글에 이어서 대응쌍을 이루는 이항형 반응변수에 대한 주변동질성 검정법을 더 살펴보고자 한다. 


❗ 대응쌍을 이루는 이항형 반응변수일 때, 주변동질성 검정법의 귀무가설은 다음과 같다.
H_{0}: P(Y_{1}=1)=P(Y_{2}=1)
H_{0}: \pi_{12}=\pi_{21}


만약 귀무가설이 참이라면, n12와 n21가 비슷한 값을 가질 것이다. 

n* = n12 + n21 가 두 칸의 도수합이라고 하면, 이렇게 두 개로 나뉘는 것은 binomial variate이기 때문이다.


귀무가설 H0 : π12 = π21 하에서 n* 관측값이 n12와 n21가 될 확률은 1/2이다.

따라서 n12와 n21는 "성공횟수"와 "실패횟수"로, n* 번 시행일 때 성공의 확률이 1/2인 이항분포를 따른다.


n*이 10보다 클 때, 이 이항분포는 평균과 표준편차가 다음과 같은 정규분포와 비슷하게 된다.  

mean=\frac{1}{2}n^{*},  sd = \sqrt{n^{*}(\frac{1}{2})(\frac{1}{2})}

따라서 표준화된 정규분포의 검정통계량은 다음과 같다.

z=\frac{n_{12}-(\frac{1}{2})n^{*}}{\sqrt{n^{*}(\frac{1}{2})(\frac{1}{2})}} = \frac{n_{12}-n_{21}}{\sqrt{n_{12}+n_{21}}}


앞선 글에서 사용했던 표를 다시 가져와서 이 검정통계량에 대입해보면 

Belt-Tightening
Higher tax Agree Disagree Total
Agree 227 132 359
Disagree 107 678 785
Total 334 810 1144

n12는 132, n21는 107이므로, 검정통계량 z는 다음과 같다.

 z= \frac{132-107}{\sqrt{132+107}}=1.62
이에 대한 p-value는 0.106으로 유의수준 5% 하에서 귀무가설을 기각하지 못한다.


이를 R로 진행하면 다음과 같다.
먼저 데이터를 불러오고 위와 같은 표의 형태로 만들어준다.


위와 같은 형태의 표를 McNemar test의 input으로 넣어주고 continuity correction은 사용하지 않으므로 correct 옵션은 F로 해준다.


R에서는 z검정통계량 대신, 자유도가 1이고 근사적으로 카이제곱분포를 따르는 z통계량을 제시한다. z2=(1.62)2=2.6151이고, 이에 대한 p-value는 0.106이다.


❗ 앞서 사용한 표를 다시 가져와 종속인 두 비율의 차이에 대한 추정에 대해 얘기하고자 한다.

Belt-Tightening
Higher taxAgreeDisagreeTotal
Agree227132359
Disagree107678785
Total3348101144

증세에 "예"라고 대답할 확률은 P(Y1=1), 긴축에 "예"라고 대답할 확률은 P(Y2=1) 이다.

이 두 비율의 차이인 P(Y1=1) - P(Y2=1)에 대한 신뢰구간은 유의성검정보다 더 많은 정보를 준다.

(더 많은 정보를 준다는 것은 아직 잘 이해가 안간다.)


P(Y1=1)=π1112이며, P(Y2=1)=π1121 이므로 이 두 비율의 차이는 π1221 이다.

댓글

이 블로그의 인기 게시물

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

Odds Ratio and Relative Risk ; 오즈비와 상대위험도

  Odds Ratio 는 임상에서 매우 많이 사용되는 개념이다. 그러나 'Odds' 라는 개념이 직관적으로 잘 와닿지 않기 때문에 흔히 오용되기도 하는 개념이라 가장 먼저 잡고가야 할 주제로 삼았다.   오즈비는 범주형 자료에서 사용되는데, 오즈비를 보면서 가장 많이 접하게 될  2X2 분할표는 다음과 같이 생겼다.   Event Normal Total Exposed A B A + B Non-exposed C D C + D 흔히 하는 실수가 오즈비(Odds Ratio)를 해석할 때, 상대위험도(Relative risk)를 해석하듯이 한다는 점이다. 따라서 오즈비와 상대위험도의 각 개념에 대해서 살펴보고 넘어가도록 하자.   ❗Odds Ratio와 Relative Risk의 공통점 : 상대적인 비율 을 나타낸다. Public health / Medical 에서 Odds Ratio or Relative Risk를 사용하는 이유 - 어떤 조건에서 더 위험한지를 수치적으로 나타내기 위해서 사용 한다. 예를 들면, "흡연(조건)"을 하는 사람은 비흡연자에 비해 "폐암(Event)" 발생에 있어서 몇 배가 더 위험한가? 와 같은 질문에 대한 해답으로 많이 사용된다.   ✅위와 같은 2X2 이차원 분할표에서 Odds Ratio (오즈비) 의 수식적 정의 는 다음과 같다. P1 = A/(A+B) ; P2 = C/(C+D) Odds1 = P1/(1-P1) ; Odds2 = P2/(1-P2) Odds Ratio = Odds1/Odds2 = A*D/B*C ✅ 한편 2X2 분할표에서 Relative Risk (상대위험도) 의 수식적 정의 는 ...