삼차원 분할표와 심슨의 역설 Simpson's paradox ; 오즈비 기본 콘텐츠로 건너뛰기

삼차원 분할표와 심슨의 역설 Simpson's paradox ; 오즈비

  범주형 변수 분석에는 2X2 분할표가 간단하여 많이 사용되는데, 간단한 자료만 있는 것이 아니라 복잡한 자료들이 참 많다.. 3X3 분할표도 굉장히 많이 이용되는데, 예시를 살펴보고 삼차원 분할표는 어떻게 분석할 수 있는지 살펴보도록 하겠다.


📋3X3 분할표는 보통 아래와 같이 생겼다.

Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8
백인 53 430 11.0
흑인 15 176 7.9


위 표에서 먼저 합을 보자.

백인이 사형선고를 받은 비율은 11%, 흑인이 사형선고를 받은 비율은 7.9%이다.
이는 백인이 흑인에 비해 사형선고의 비율이 높다는 의미이다.

뭔가 그동안 보아왔던 것과는 좀 다른 결과이지 않은가?

❗설명변수인 와 반응변수인 의 관계를 통계분석 시 주의해야 할 점은 두 변수에 동시에 영향을 주는 "교란변수 confounding" 이다. 이를 공변량 covariates 이라고도 하는데, 앞으로는 이런 변수들을 공변량이라 하겠다.



🌟 공변량은 설명변수 와 반응변수 Y 모두에 연관되어 있다.

굉장히 매우 중요한 문장이다.

📋예를 들어 보자.
흡연자와 같이 사는 비흡연자에게 간접흡연이 미치는 영향을 살펴보는 연구를 하고자 설명변수로는 배우자가 흡연자인지의 여부, 반응변수로는 폐암 발생 여부로 지정했다고 하자.

X = 흡연자와의 동거 여부
Y = 폐암 발생 여부

관측사항 ①: 흡연자들은 비흡연자에 비해 나이가 많은 경향이 있다. (X 와 나이)

관측사항 ②: 폐암 발생자들 역시 나이가 많은 경향이 있음을 관측하였다. (Y 와 나이)


계산 결과: 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높음을 관측하였다. 


이러한 관측 결과에 따라 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높다는 결론을 내릴 수 있을까?

결론을 그럴수도 있고 아닐수도 있다인데, 이를 정확히 판단하기 위해서는 변수 에 모두 영향을 주는 "나이" 라는 공변량을 통제해야 한다. 

나이라는 공변량을 고려하지 않으면 위 결과는 흡연 때문이 아니라 단순히 나이 때문일 수 있다.

따라서 공변량 (혹은 교란변수)를 적절히 보정해주어야 한다.

 

아무튼 공변량에 대한 설명이 길어졌는데, 위 표로 다시 돌아가보자.

위 표에서 제어할 변수는 피해자의 인종이다.

그러므로 제어 변수 Z 의 각 수준에서 XY 를 다시 분류해보자. 그럼 아래의 표가 다시 생성되는데, 이를 부분분할표 partial table 이라고 한다.


Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8

이러한 부분분할표에서의 연관성을 조건부연관성 conditional association 이라고 한다.

제어변수인 피해자의 인종을 고정시켰을 때,
① 피해자가 백인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (11.3% vs 22.9%)
② 피해자가 흑인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (0.0% vs 2.8%)

결론: 피해자의 인종을 고정시켰을 때, 사형선고 비율은 피고가 흑인일 때가 백인일 때보다 더 높다.


제어 변수를 고려하지 않고 부분분할표를 결합해 얻은 표를 주변분할표 marginal table이라 하고 그 형태는 다음과 같다.

Defendants' race 선고 Rate(%)
Yes No
Total 백인 53 430 11.0
흑인 15 176 7.9

주변분할표만 보면 피고가 백인일 때의 사형선고 비율이 흑인일 때보다 더 높다. (11% vs 7.9%)

주변분할표에서 얻은 연관성이 주변연관성


피해자의 인종을 고려하지 않으면 백인의 사형선고 비율이 더 높고, 피해자의 인종을 고려하면 흑인의 사형선고 비율이 더 높았다.

이와 같이 주변연관성과 조건부연관성이 다른 방향을 가지는 것심슨(Simpson)의 역설 Simpson's paradox라고 한다.




이전 글에서 이차원 분할표로 오즈비를 구하는 방법을 살펴보았다.

❗삼차원 분할표에서는 조건부 오즈비와 주변 오즈비를 구할 수 있다.


(1) 조건부 오즈비

제어변수를 각각 살펴보았던 부분분할표에서도 오즈비를 구할 수 있다.

이를 조건부 오즈비 conditional odds ratio 라고 한다.

다시 앞서 사용했던 부분분할표를 가져와 보자.

Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8

① 백인 피해자에 대한 첫 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(1)}=\frac{53\times 37}{11\times 414}=0.43 $$
이제 0.43이라는 오즈비를 해석해보자.
➞ 피해자가 백인일 때, 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 0.43배이다.


② 흑인 피해자에 대한 두 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(2)}=\frac{0\times 139}{4\times 16}=0 $$


(2) 주변 오즈비

주변 오즈비의 추정값은 공변량을 제어하지 않은 주변분할표로부터 구할 수 있다.
앞서 사용했던 주변분할표를 가져와 보자.

Defendants' race 선고 Rate(%)
Yes No
Total 백인 53 430 11.0
흑인 15 176 7.9

주변오즈비는 다음과 같이 구할 수 있다.
$$ \hat{\theta}_{XY}=\frac{53\times 176}{15\times 430}=1.45 $$

1.45라는 오즈비를 해석하면
➞ 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 1.45배이다.



❗앞선 글에서 오즈비를 통해 X 변수와 Y 변수의 독립성을 살펴볼 수 있다 했다.

그럼 위와 같은 삼차원 분할표에서는?

위에서는 두 개의 부분분할표가 있었다. ①피해자가 백인인 경우, ②피해자가 흑인인 경우

만약 각 부분분할표에서 가 독립이면, 가 주어졌을 때 조건부 독립 conditionally independent 이라고 하며, XY 사이의 모든 조건부 오즈비는 1이다.


❓ 조건부 독립이면 주변독립일까?
➞ 아니다. 비록 의 각 부분분할표에서 독립이더라도 주변오즈비는 1이 아닐 수도 있다. 
❓ 주변부독립이면 조건부 독립일까?
➞ 아니다. 두 변수 간에 연관성이 존재하더라도 다른 변수를 고려하면 연관성이 사라질 수 있다.


댓글

이 블로그의 인기 게시물

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...