범주형 변수 분석에는 2X2 분할표가 간단하여 많이 사용되는데, 간단한 자료만 있는 것이 아니라 복잡한 자료들이 참 많다.. 3X3 분할표도 굉장히 많이 이용되는데, 예시를 살펴보고 삼차원 분할표는 어떻게 분석할 수 있는지 살펴보도록 하겠다.
📋3X3 분할표는 보통 아래와 같이 생겼다.
Victims' race | Defendants' race | 선고 | Rate(%) | |
---|---|---|---|---|
Yes | No | |||
백인 | 백인 | 53 | 414 | 11.3 |
흑인 | 11 | 37 | 22.9 | |
흑인 | 백인 | 0 | 16 | 0.0 |
흑인 | 4 | 139 | 2.8 | |
합 | 백인 | 53 | 430 | 11.0 |
흑인 | 15 | 176 | 7.9 |
위 표에서 먼저 합을 보자.
백인이 사형선고를 받은 비율은 11%, 흑인이 사형선고를 받은 비율은 7.9%이다.
이는 백인이 흑인에 비해 사형선고의 비율이 높다는 의미이다.
뭔가 그동안 보아왔던 것과는 좀 다른 결과이지 않은가?
❗설명변수인 X 와 반응변수인 Y 의 관계를 통계분석 시 주의해야 할 점은 두 변수에 동시에 영향을 주는 "교란변수 confounding" 이다. 이를 공변량 covariates 이라고도 하는데, 앞으로는 이런 변수들을 공변량이라 하겠다.
🌟 공변량은 설명변수 X 와 반응변수 Y 모두에 연관되어 있다.
굉장히 매우 중요한 문장이다.
📋예를 들어 보자.
흡연자와 같이 사는 비흡연자에게 간접흡연이 미치는 영향을 살펴보는 연구를 하고자 설명변수로는 배우자가 흡연자인지의 여부, 반응변수로는 폐암 발생 여부로 지정했다고 하자.
X = 흡연자와의 동거 여부
Y = 폐암 발생 여부
관측사항 ①: 흡연자들은 비흡연자에 비해 나이가 많은 경향이 있다. (X 와 나이)
관측사항 ②: 폐암 발생자들 역시 나이가 많은 경향이 있음을 관측하였다. (Y 와 나이)
계산 결과: 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높음을 관측하였다.
이러한 관측 결과에 따라 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높다는 결론을 내릴 수 있을까?
결론을 그럴수도 있고 아닐수도 있다인데, 이를 정확히 판단하기 위해서는 변수 X 와 Y 에 모두 영향을 주는 "나이" 라는 공변량을 통제해야 한다.
나이라는 공변량을 고려하지 않으면 위 결과는 흡연 때문이 아니라 단순히 나이 때문일 수 있다.
따라서 공변량 (혹은 교란변수)를 적절히 보정해주어야 한다.
아무튼 공변량에 대한 설명이 길어졌는데, 위 표로 다시 돌아가보자.
위 표에서 제어할 변수는 피해자의 인종이다.
그러므로 제어 변수 Z 의 각 수준에서 X 와 Y 를 다시 분류해보자. 그럼 아래의 표가 다시 생성되는데, 이를 부분분할표 partial table 이라고 한다.
Victims' race | Defendants' race | 선고 | Rate(%) | |
---|---|---|---|---|
Yes | No | |||
백인 | 백인 | 53 | 414 | 11.3 |
흑인 | 11 | 37 | 22.9 | |
흑인 | 백인 | 0 | 16 | 0.0 |
흑인 | 4 | 139 | 2.8 |
이러한 부분분할표에서의 연관성을 조건부연관성 conditional association 이라고 한다.
제어변수인 피해자의 인종을 고정시켰을 때,
① 피해자가 백인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (11.3% vs 22.9%)
② 피해자가 흑인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (0.0% vs 2.8%)
결론: 피해자의 인종을 고정시켰을 때, 사형선고 비율은 피고가 흑인일 때가 백인일 때보다 더 높다.
제어 변수를 고려하지 않고 부분분할표를 결합해 얻은 표를 주변분할표 marginal table이라 하고 그 형태는 다음과 같다.
Defendants' race | 선고 | Rate(%) | ||
---|---|---|---|---|
Yes | No | |||
Total | 백인 | 53 | 430 | 11.0 |
흑인 | 15 | 176 | 7.9 |
주변분할표만 보면 피고가 백인일 때의 사형선고 비율이 흑인일 때보다 더 높다. (11% vs 7.9%)
주변분할표에서 얻은 연관성이 주변연관성
피해자의 인종을 고려하지 않으면 백인의 사형선고 비율이 더 높고, 피해자의 인종을 고려하면 흑인의 사형선고 비율이 더 높았다.
이와 같이 주변연관성과 조건부연관성이 다른 방향을 가지는 것을 심슨(Simpson)의 역설 Simpson's paradox라고 한다.
이전 글에서 이차원 분할표로 오즈비를 구하는 방법을 살펴보았다.
❗삼차원 분할표에서는 조건부 오즈비와 주변 오즈비를 구할 수 있다.
(1) 조건부 오즈비
제어변수를 각각 살펴보았던 부분분할표에서도 오즈비를 구할 수 있다.
이를 조건부 오즈비 conditional odds ratio 라고 한다.
다시 앞서 사용했던 부분분할표를 가져와 보자.
Victims' race | Defendants' race | 선고 | Rate(%) | |
---|---|---|---|---|
Yes | No | |||
백인 | 백인 | 53 | 414 | 11.3 |
흑인 | 11 | 37 | 22.9 | |
흑인 | 백인 | 0 | 16 | 0.0 |
흑인 | 4 | 139 | 2.8 |
① 백인 피해자에 대한 첫 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(1)}=\frac{53\times 37}{11\times 414}=0.43 $$
이제 0.43이라는 오즈비를 해석해보자.
➞ 피해자가 백인일 때, 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 0.43배이다.
② 흑인 피해자에 대한 두 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(2)}=\frac{0\times 139}{4\times 16}=0 $$
(2) 주변 오즈비
주변 오즈비의 추정값은 공변량을 제어하지 않은 주변분할표로부터 구할 수 있다.
앞서 사용했던 주변분할표를 가져와 보자.
Defendants' race | 선고 | Rate(%) | ||
---|---|---|---|---|
Yes | No | |||
Total | 백인 | 53 | 430 | 11.0 |
흑인 | 15 | 176 | 7.9 |
주변오즈비는 다음과 같이 구할 수 있다.
$$ \hat{\theta}_{XY}=\frac{53\times 176}{15\times 430}=1.45 $$
1.45라는 오즈비를 해석하면
➞ 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 1.45배이다.
❗앞선 글에서 오즈비를 통해 X 변수와 Y 변수의 독립성을 살펴볼 수 있다 했다.
그럼 위와 같은 삼차원 분할표에서는?
위에서는 두 개의 부분분할표가 있었다. ①피해자가 백인인 경우, ②피해자가 흑인인 경우
만약 각 부분분할표에서 X 와 Y 가 독립이면, X 와 Y 는 Z 가 주어졌을 때 조건부 독립 conditionally independent 이라고 하며, X 와 Y 사이의 모든 조건부 오즈비는 1이다.
❓ 조건부 독립이면 주변독립일까?
➞ 아니다. 비록 X 와 Y 가 Z 의 각 부분분할표에서 독립이더라도 주변오즈비는 1이 아닐 수도 있다.
❓ 주변부독립이면 조건부 독립일까?
➞ 아니다. 두 변수 간에 연관성이 존재하더라도 다른 변수를 고려하면 연관성이 사라질 수 있다.
댓글
댓글 쓰기