GLM에서 이탈도
이탈도 Deviance란 무엇일까?
GLM에서 이탈도 deviance는 선형회귀모형에서 잔차제곱합에 대응하는 값으로 표본과 적합된 모형 간 편차를 정량화 하는 값이다.
GLM에서 이탈도로 할 수 있는 검정이 무엇이 있을까?
1. 모형의 유의성 검정
2. 모형의 적합도평가
GLM 모형을 적합하면 다음과 같은 결과가 나오는데,
이탈도 값은 2개가 나온다. ①Null deviance ②Residual deviance 이 두 개의 이탈도 값이다.
①Null deviance는 절편만 있는 모형에서의 이탈도
②Residual deviance는 β 가 포함된 모형에서의 이탈도를 의미한다.
먼저 ①모형의 유의성 검정을 살펴보겠다.
유의성 검정에서의 귀무가설과 대립가설은 다음과 같다.
귀무가설: β1 = β2 = 0 (Null model)
대립가설: 적어도 하나는 0이 아니다.
이를 검정하기 위한 검정통계량 LR(=가능도비 검정통계량)은 다음과 같다.
LR = [Null deviance] - [Residual deviance] = 2(현재모형 하에서 로그가능도 함수의 최댓값 - 귀무가설 하에서 로그가능도 함수의 최댓값)
따라서 이를 위 적합 결과에 적용하면
$$ LR = 225.76 - 189.12 = 36.64 $$
$$ 1 - pchisq(36.64, df=2) = 1.1(10)^{-8} $$
결론: 유의확률이 매우 작으므로 귀무가설을 기각하고 대립가설을 선택할 수 있다.
모형의 유의성 검정에 대해 살펴보았으니 이번에는 두 번째인
②모형의 적합도 검정을 살펴보자.
적합도 검정에서의 귀무가설과 대립가설은 다음과 같다.
귀무가설: 현재의 단순한 모형 M (=모형M에 포함되지 않은 모수들은 모두 0이다.)
대립가설: 포화모형 saturated model
이를 검정하기 위한 검정통계량은 이탈도 통계량으로 다음과 같이 정의한다.
이탈도 통계량 = 2[포화모형 로그가능도함수의 최댓값 - 현재모형M 로그가능도함수의 최댓값] = Residual deviance
이탈도 통계량은 결국 잔차이탈도라고 일컬었던 그것이다.
모형이 적절하게 적합되었다면 잔차이탈도는 작을 것이다.
모형의 적합도 검정에서는 R 검정 결과에서 Residual deviance 부분만 보고 카이제곱 검정을 하면 된다.
$$ 1 - pchisq(189.12, 170) = 0.15 $$
결론: 유의확률이 0.05보다 크기 때문에 귀무가설을 기각할 수 없어 현재의 단순한 모형M이 잘 적합되었다.
댓글
댓글 쓰기