Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

라벨이 적합도검정인 게시물 표시

GLM과 이탈도 - 모형검정 & 적합도검정

 GLM에서 이탈도 이탈도 Deviance란 무엇일까? GLM에서 이탈도 deviance는 선형회귀모형에서 잔차제곱합에 대응하는 값으로 표본과 적합된 모형 간 편차를 정량화 하는 값이다. GLM에서 이탈도로 할 수 있는 검정이 무엇이 있을까? 1. 모형의 유의성 검정 2. 모형의 적합도평가 GLM 모형을 적합하면 다음과 같은 결과가 나오는데, 이탈도 값은 2개가 나온다. ①Null deviance ②Residual deviance 이 두 개의 이탈도 값이다. ①Null deviance는 절편만 있는 모형에서의 이탈도 ②Residual deviance는 β  가 포함된 모형에서의 이탈도를 의미한다. 먼저 ① 모형의 유의성 검정 을 살펴보겠다. 유의성 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설:  β1  =  β2  = 0 (Null model) 대립가설: 적어도 하나는 0이 아니다. 이를 검정하기 위한 검정통계량 LR(=가능도비 검정통계량) 은 다음과 같다. LR = [Null deviance] - [Residual deviance] = 2(현재모형 하에서 로그가능도 함수의 최댓값 - 귀무가설 하에서 로그가능도 함수의 최댓값) 따라서 이를 위 적합 결과에 적용하면 $$ LR = 225.76 - 189.12 = 36.64 $$ $$ 1 - pchisq(36.64, df=2) = 1.1(10)^{-8} $$ 결론: 유의확률이 매우 작으므로 귀무가설을 기각하고 대립가설을 선택할 수 있다. 모형의 유의성 검정에 대해 살펴보았으니 이번에는 두 번째인 ② 모형의 적합도 검정 을 살펴보자. 적합도 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설: 현재의 단순한 모형 M (=모형M에 포함되지 않은 모수들은 모두 0이다.) 대립가설: 포화모형 saturated model 이를 검정하기 위한 검정통계량은 이탈도 통계량으로 다음과 같이 정의한다. 이탈도 통계량 = 2[포화모형 로그가능도함수의 최댓값 ...

GLM의 모형진단 - GLM part. 4

 회귀 모형 (Regression model) 을 적합하고 모형 진단을 할 때 여러 검정이 필요한데, 그 중에서도 먼저 적합도 검정에 대해서 살펴보고자 한다. 관심 있는 모형을  M  이라 하고, 이  모형이 잘 적합되었는지 검정을 해보자. ✅적합도 검정 (Goodness of fit test) 이란?  -포화모형에는 포함되어 있지만 간단한 모형에는 포함되지 않는 모든 모수가 0인지 검정하는 것 ✔  귀무가설 : 간단한 모형 (현재 고려하고 있는 모형 = M) ✔  대립가설 : 포화모형 (가장 복잡한 모형) 유의확률이 클수록 귀무가설을 기각하지 못하기 때문에 간단한 모형을 선택하게 된다. 즉, 유의확률이 크다면 간단한 모형이  복잡모형과의 설명력에서 차이가 없으므로 간단한 모형을 사용하면 된다. 범주형 변수 4개(binary)가 있다면 모수가 4개. ✅ 적합도와 이탈도 GLM에서 적합도 검정을 위한 가능도비 통계량 1. 이탈도(Deviance)  = -2[Lm-Ls]       Ls :포화모형의 이탈도,  Lm : 간단모델의 이탈도 값이 클수록 포화모형과 비교했을 때 축소모형의 설명력이 좋지 못하다는 해석을 내릴 수 있음. P-value가 작을수록 적합결여에 대한 강한 증거가 된다. 2.  대표본의 경우 근사적으로  카이제곱 분포 를 따름. 예측변수가 모두 범주형 변수인 경우, 전체 Data는 분할표의 도수로 요약할 수 있다. 잔차를 이용해 적합도를 살펴볼 수 있다.   L M = 모형 M  에서 얻은 로그 가능도함수의 최댓값 L S = 가능한 모형 중에서 가장 복잡한 모형에서의 로그 가능도함수의 최댓값 가장 복잡한 모형을 포화모형 saturated model 이라고 하고, 이 모형은 각 관측값에 대해 모수를 가지므로 완벽하게 자료를 적합시킨다. 포화모형은 모수들을 더 많이 포함하기 때문에 포화모형...