오즈비에 관한 통계적 추론
표본크기가 작을 때 오즈비의 표본추출분포는 비대칭적이기 때문에 오즈비에 대한 통계적 추론은 θ 를 자연로그 변환한 log(θ )를 이용한다.
두 변수 X, Y 가 서로 독립일 때, θ = 1 ➞ log(θ ) = 0
앞선 글에서 행이 바뀌거나 열이 바뀌면 오즈비는 역수가 되는 것을 살펴보았다.
마찬가지로 로그 오즈비는 행의 역수 혹은 열의 역수가 그 부호를 바꾼다는 의미에서 0에 대하여 대칭이다.
예를 들어,
θ = 2 ➞ log(2) = 0.69
2의 역수 = 0.5
θ = 0.5 ➞ log(0.5) = -0.69
따라서 절대값이 같은 두 log(θ )는 같은 정도의 연관성을 의미한다.
오즈비의 로그 변환인 log(θ )는 θ 의 분포보다 더 정규분포에 가까운 표본추출분포를 갖는다.
표본크기가 커지면 log(θ )의 표본분포는 평균이 logθ 이고 다음과 같은 표준편차를 갖는 정규분포로 수렴한다.
$$ SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}} $$
따라서 각 칸의 도수가 증가할수록 표준편차는 감소한다.
앞선 글(오즈비의 성질)에서 사용했던 표를 다시 가져와서 신뢰구간을 구해보겠다.
Infarction | ||||
---|---|---|---|---|
Yes | No | Total | ||
Drug | Used | 28 | 41 | 69 |
Never | 35 | 132 | 167 | |
Total | 63 | 173 | 236 |
logθ 의 왈드 신뢰구간은 다음과 같다.
$$ log \hat{\theta} \pm z_{\alpha/2}(SE) $$
표본으로부터 얻은 각 값들은 아래와 같다.
$$ log \hat{\theta} = 0.95 $$
$$ SE=\sqrt{\frac{1}{28}+\frac{1}{41}+\frac{1}{35}+\frac{1}{132}}=0.31 $$
위에서 구한 값들을 대입하면 logθ 의 95% 왈드 신뢰구간은 다음과 같다.
$$ log \hat{\theta} \pm z_{\alpha/2}(SE)=0.95 \pm 1.96(0.31)= [0.34, 1.56] $$
로그를 없애기 위해 exp를 취해주면
$$ [e^{0.34}, \; e^{1.56}] = [1.4, 4.7] $$
따라서 θ 의 95% 왈드 신뢰구간은 [1.4, 4.7]이 된다.
댓글
댓글 쓰기