GLM에서 설명변수에 대한 검정

GLM 적합 후에 여러 가지를 검정해야 하는데, 이번에는 설명변수에 대한 검정을 살펴보도록 하겠다.

표본이 큰 경우에 GLM의 ML 추정량들은 근사적으로 정규분포를 따른다.

설명변수가 한 개인 GLM을 생각해보자.

(1) 왈드검정 Wald

귀무가설 β=0 을 검정하기 위한 왈드 검정통계량은 다음과 같다.

$z=\hat{\beta}/SE$

귀무가설 하에서 z는 근사적으로 표준정규분포를 따른다.

$z^{2} \sim \chi^{2} (df=1)$

이항모수 𝛑에 대하여 SE는 다음과 같다.

$SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n}$

(2) 가능도비 검정 Likelihood ratio

l 0 = 귀무가설 하에서의 가능도함수의 최댓값

l 1 = 완전모형 하에서의 가능도함수의 최댓값

$2log(l_{1}/l_{0})=2[log(l_{1})-log(l_{0})]=2(L_{1}-L_{0})$

L0 = 귀무가설 하에서의 로그 가능도함수의 최댓값

L1 = 완전모형 하에서의 로그 가능도 함수의 최댓값

(로그변환과 두 배를 하면 대략적으로 카이제곱 표본분포를 따르게 됨)

귀무가설 β=0 하에서 2(L1-L0) 이 검정통계량은 근사적으로 자유도가 1인 카이제곱분포를 따른다.

가능도비 검정은 일반적으로 왈드검정보다 statistical power가 더 높다고 평가 받는다.

(3) 스코어 검정 score test

왈드 검정과 달리 추정된 표준오차값이 아닌, 귀무가설이 참일 때 타당한 표준오차값(SE0)을 이용한다.

왈드 검정에서 SE는 다음과 같다.

$SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n}$

z검정에서 사용하는 표준오차 즉, 스코어 검정에서 SE0는 다음과 같다.

$SE_{0}=\sqrt{\pi_{0}(1-\pi_{0})/n}$

Bioinformatics with Park-Kleis