삼차원 분할표와 심슨의 역설 Simpson's paradox ; 오즈비 기본 콘텐츠로 건너뛰기

삼차원 분할표와 심슨의 역설 Simpson's paradox ; 오즈비

  범주형 변수 분석에는 2X2 분할표가 간단하여 많이 사용되는데, 간단한 자료만 있는 것이 아니라 복잡한 자료들이 참 많다.. 3X3 분할표도 굉장히 많이 이용되는데, 예시를 살펴보고 삼차원 분할표는 어떻게 분석할 수 있는지 살펴보도록 하겠다.


📋3X3 분할표는 보통 아래와 같이 생겼다.

Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8
백인 53 430 11.0
흑인 15 176 7.9


위 표에서 먼저 합을 보자.

백인이 사형선고를 받은 비율은 11%, 흑인이 사형선고를 받은 비율은 7.9%이다.
이는 백인이 흑인에 비해 사형선고의 비율이 높다는 의미이다.

뭔가 그동안 보아왔던 것과는 좀 다른 결과이지 않은가?

❗설명변수인 와 반응변수인 의 관계를 통계분석 시 주의해야 할 점은 두 변수에 동시에 영향을 주는 "교란변수 confounding" 이다. 이를 공변량 covariates 이라고도 하는데, 앞으로는 이런 변수들을 공변량이라 하겠다.



🌟 공변량은 설명변수 와 반응변수 Y 모두에 연관되어 있다.

굉장히 매우 중요한 문장이다.

📋예를 들어 보자.
흡연자와 같이 사는 비흡연자에게 간접흡연이 미치는 영향을 살펴보는 연구를 하고자 설명변수로는 배우자가 흡연자인지의 여부, 반응변수로는 폐암 발생 여부로 지정했다고 하자.

X = 흡연자와의 동거 여부
Y = 폐암 발생 여부

관측사항 ①: 흡연자들은 비흡연자에 비해 나이가 많은 경향이 있다. (X 와 나이)

관측사항 ②: 폐암 발생자들 역시 나이가 많은 경향이 있음을 관측하였다. (Y 와 나이)


계산 결과: 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높음을 관측하였다. 


이러한 관측 결과에 따라 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높다는 결론을 내릴 수 있을까?

결론을 그럴수도 있고 아닐수도 있다인데, 이를 정확히 판단하기 위해서는 변수 에 모두 영향을 주는 "나이" 라는 공변량을 통제해야 한다. 

나이라는 공변량을 고려하지 않으면 위 결과는 흡연 때문이 아니라 단순히 나이 때문일 수 있다.

따라서 공변량 (혹은 교란변수)를 적절히 보정해주어야 한다.

 

아무튼 공변량에 대한 설명이 길어졌는데, 위 표로 다시 돌아가보자.

위 표에서 제어할 변수는 피해자의 인종이다.

그러므로 제어 변수 Z 의 각 수준에서 XY 를 다시 분류해보자. 그럼 아래의 표가 다시 생성되는데, 이를 부분분할표 partial table 이라고 한다.


Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8

이러한 부분분할표에서의 연관성을 조건부연관성 conditional association 이라고 한다.

제어변수인 피해자의 인종을 고정시켰을 때,
① 피해자가 백인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (11.3% vs 22.9%)
② 피해자가 흑인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (0.0% vs 2.8%)

결론: 피해자의 인종을 고정시켰을 때, 사형선고 비율은 피고가 흑인일 때가 백인일 때보다 더 높다.


제어 변수를 고려하지 않고 부분분할표를 결합해 얻은 표를 주변분할표 marginal table이라 하고 그 형태는 다음과 같다.

Defendants' race 선고 Rate(%)
Yes No
Total 백인 53 430 11.0
흑인 15 176 7.9

주변분할표만 보면 피고가 백인일 때의 사형선고 비율이 흑인일 때보다 더 높다. (11% vs 7.9%)

주변분할표에서 얻은 연관성이 주변연관성


피해자의 인종을 고려하지 않으면 백인의 사형선고 비율이 더 높고, 피해자의 인종을 고려하면 흑인의 사형선고 비율이 더 높았다.

이와 같이 주변연관성과 조건부연관성이 다른 방향을 가지는 것심슨(Simpson)의 역설 Simpson's paradox라고 한다.




이전 글에서 이차원 분할표로 오즈비를 구하는 방법을 살펴보았다.

❗삼차원 분할표에서는 조건부 오즈비와 주변 오즈비를 구할 수 있다.


(1) 조건부 오즈비

제어변수를 각각 살펴보았던 부분분할표에서도 오즈비를 구할 수 있다.

이를 조건부 오즈비 conditional odds ratio 라고 한다.

다시 앞서 사용했던 부분분할표를 가져와 보자.

Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8

① 백인 피해자에 대한 첫 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(1)}=\frac{53\times 37}{11\times 414}=0.43 $$
이제 0.43이라는 오즈비를 해석해보자.
➞ 피해자가 백인일 때, 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 0.43배이다.


② 흑인 피해자에 대한 두 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(2)}=\frac{0\times 139}{4\times 16}=0 $$


(2) 주변 오즈비

주변 오즈비의 추정값은 공변량을 제어하지 않은 주변분할표로부터 구할 수 있다.
앞서 사용했던 주변분할표를 가져와 보자.

Defendants' race 선고 Rate(%)
Yes No
Total 백인 53 430 11.0
흑인 15 176 7.9

주변오즈비는 다음과 같이 구할 수 있다.
$$ \hat{\theta}_{XY}=\frac{53\times 176}{15\times 430}=1.45 $$

1.45라는 오즈비를 해석하면
➞ 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 1.45배이다.



❗앞선 글에서 오즈비를 통해 X 변수와 Y 변수의 독립성을 살펴볼 수 있다 했다.

그럼 위와 같은 삼차원 분할표에서는?

위에서는 두 개의 부분분할표가 있었다. ①피해자가 백인인 경우, ②피해자가 흑인인 경우

만약 각 부분분할표에서 가 독립이면, 가 주어졌을 때 조건부 독립 conditionally independent 이라고 하며, XY 사이의 모든 조건부 오즈비는 1이다.


❓ 조건부 독립이면 주변독립일까?
➞ 아니다. 비록 의 각 부분분할표에서 독립이더라도 주변오즈비는 1이 아닐 수도 있다. 
❓ 주변부독립이면 조건부 독립일까?
➞ 아니다. 두 변수 간에 연관성이 존재하더라도 다른 변수를 고려하면 연관성이 사라질 수 있다.


댓글

이 블로그의 인기 게시물

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

Odds Ratio and Relative Risk ; 오즈비와 상대위험도

  Odds Ratio 는 임상에서 매우 많이 사용되는 개념이다. 그러나 'Odds' 라는 개념이 직관적으로 잘 와닿지 않기 때문에 흔히 오용되기도 하는 개념이라 가장 먼저 잡고가야 할 주제로 삼았다.   오즈비는 범주형 자료에서 사용되는데, 오즈비를 보면서 가장 많이 접하게 될  2X2 분할표는 다음과 같이 생겼다.   Event Normal Total Exposed A B A + B Non-exposed C D C + D 흔히 하는 실수가 오즈비(Odds Ratio)를 해석할 때, 상대위험도(Relative risk)를 해석하듯이 한다는 점이다. 따라서 오즈비와 상대위험도의 각 개념에 대해서 살펴보고 넘어가도록 하자.   ❗Odds Ratio와 Relative Risk의 공통점 : 상대적인 비율 을 나타낸다. Public health / Medical 에서 Odds Ratio or Relative Risk를 사용하는 이유 - 어떤 조건에서 더 위험한지를 수치적으로 나타내기 위해서 사용 한다. 예를 들면, "흡연(조건)"을 하는 사람은 비흡연자에 비해 "폐암(Event)" 발생에 있어서 몇 배가 더 위험한가? 와 같은 질문에 대한 해답으로 많이 사용된다.   ✅위와 같은 2X2 이차원 분할표에서 Odds Ratio (오즈비) 의 수식적 정의 는 다음과 같다. P1 = A/(A+B) ; P2 = C/(C+D) Odds1 = P1/(1-P1) ; Odds2 = P2/(1-P2) Odds Ratio = Odds1/Odds2 = A*D/B*C ✅ 한편 2X2 분할표에서 Relative Risk (상대위험도) 의 수식적 정의 는 ...