Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

GLM과 이탈도 - 모형검정 & 적합도검정

 GLM에서 이탈도 이탈도 Deviance란 무엇일까? GLM에서 이탈도 deviance는 선형회귀모형에서 잔차제곱합에 대응하는 값으로 표본과 적합된 모형 간 편차를 정량화 하는 값이다. GLM에서 이탈도로 할 수 있는 검정이 무엇이 있을까? 1. 모형의 유의성 검정 2. 모형의 적합도평가 GLM 모형을 적합하면 다음과 같은 결과가 나오는데, 이탈도 값은 2개가 나온다. ①Null deviance ②Residual deviance 이 두 개의 이탈도 값이다. ①Null deviance는 절편만 있는 모형에서의 이탈도 ②Residual deviance는 β  가 포함된 모형에서의 이탈도를 의미한다. 먼저 ① 모형의 유의성 검정 을 살펴보겠다. 유의성 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설:  β1  =  β2  = 0 (Null model) 대립가설: 적어도 하나는 0이 아니다. 이를 검정하기 위한 검정통계량 LR(=가능도비 검정통계량) 은 다음과 같다. LR = [Null deviance] - [Residual deviance] = 2(현재모형 하에서 로그가능도 함수의 최댓값 - 귀무가설 하에서 로그가능도 함수의 최댓값) 따라서 이를 위 적합 결과에 적용하면 $$ LR = 225.76 - 189.12 = 36.64 $$ $$ 1 - pchisq(36.64, df=2) = 1.1(10)^{-8} $$ 결론: 유의확률이 매우 작으므로 귀무가설을 기각하고 대립가설을 선택할 수 있다. 모형의 유의성 검정에 대해 살펴보았으니 이번에는 두 번째인 ② 모형의 적합도 검정 을 살펴보자. 적합도 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설: 현재의 단순한 모형 M (=모형M에 포함되지 않은 모수들은 모두 0이다.) 대립가설: 포화모형 saturated model 이를 검정하기 위한 검정통계량은 이탈도 통계량으로 다음과 같이 정의한다. 이탈도 통계량 = 2[포화모형 로그가능도함수의 최댓값 ...

삼차원 분할표와 심슨의 역설 Simpson's paradox ; 오즈비

  범주형 변수 분석에는 2X2 분할표가 간단하여 많이 사용되는데, 간단한 자료만 있는 것이 아니라 복잡한 자료들이 참 많다.. 3X3 분할표도 굉장히 많이 이용되는데, 예시를 살펴보고 삼차원 분할표는 어떻게 분석할 수 있는지 살펴보도록 하겠다. 📋 3X3 분할표 는 보통 아래와 같이 생겼다. Victims' race Defendants' race 선고 Rate(%) Yes No 백인 백인 53 414 11.3 흑인 11 37 22.9 흑인 백인 0 16 0.0 흑인 4 139 2.8 합 백인 53 430 11.0 흑인 15 176 7.9 위 표에서 먼저 합을 보자. 백인이 사형선고를 받은 비율은 11%, 흑인이 사형선고를 받은 비율은 7.9%이다. 이는 백인이 흑인에 비해 사형선고의 비율이 높다는 의미이다. 뭔가 그동안 보아왔던 것과는 좀 다른 결과이지 않은가? ❗설명변수인 X  와 반응변수인 Y  의 관계를 통계분석 시 주의해야 할 점은 두 변수에 동시에 영향을 주는 " 교란변수 confounding " 이다. 이를 공변량 covariates 이라고도 하는데, 앞으로는 이런 변수들을 공변량이라 하겠다. 🌟 공변량은 설명변수 X  와 반응변수 Y 모두에 연관되어 있다. 굉장히 매우 중요한 문장이다. 📋예를 들어 보자. 흡연자와 같이 사는 비흡연자에게 간접흡연이 미치는 영향을 살펴보는 연구를 하고자 설명변수로는 배우자가 흡연자인지의 여부, 반응변수로는 폐암 발생 여부로 지정했다고 하자. X = 흡연자와의 동거 여부 Y = 폐암 ...

오즈비의 신뢰구간

 오즈비에 관한 통계적 추론 표본크기가 작을 때 오즈비의 표본추출분포는 비대칭적이기 때문에 오즈비에 대한 통계적 추론은 θ  를 자연로그 변환한 log( θ  )를 이용한다. 두 변수 X , Y  가 서로 독립일 때,  θ = 1 ➞ log( θ  ) = 0 앞선 글에서 행이 바뀌거나 열이 바뀌면 오즈비는 역수가 되는 것을 살펴보았다. 마찬가지로 로그 오즈비는 행의 역수 혹은 열의 역수가 그 부호를 바꾼다는 의미에서 0에 대하여 대칭이다. 예를 들어, θ  = 2 ➞ log(2) = 0.69 2의 역수 = 0.5 θ  = 0.5 ➞ log(0.5) = -0.69 따라서 절대값이 같은 두 log( θ  )는 같은 정도의 연관성을 의미한다. 오즈비의 로그 변환인 log( θ  )는  θ  의 분포보다 더 정규분포에 가까운 표본추출분포를 갖는다.  표본크기가 커지면 log( θ  )의 표본분포는 평균이 log θ  이고 다음과 같은 표준편차를 갖는 정규분포로 수렴한다. $$ SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}} $$ 따라서 각 칸의 도수가 증가할수록 표준편차는 감소한다.  앞선 글(오즈비의 성질)에서 사용했던 표를 다시 가져와서 신뢰구간을 구해보겠다. Infarction Yes No Total Drug Used 28 41 69 Never 35 132 167 Total 63 173 236 log θ  의 왈드 신뢰구간은 다음과 같다. $$ log \hat{\theta} \pm ...

오즈비의 성질 Odds Ratio

  오즈비는 임상에서 굉장히 많이 사용되는 개념이기도 하고, 로지스틱 회귀에서도 모형의 해석에서 굉장히 중요한 개념이다. 오즈비는 처음에는 이해하기 어렵지만, 이해를 하고나면 그 다음부터 쉽게 해석할 수 있고, 오즈비가 가진 여러 성질들도 이해할 수 있다.  📋오즈비의 성질을 살펴보기 위해 아래와 같은 표를 만들었다. Infarction Yes No Total Drug Used 28 41 69 Never 35 132 167 Total 63 173 236 📉 먼저 위 표를 바탕으로 상대위험도(Relative Risk)를 구해보자. ✔ Drug used 그룹 에서 Infarction Yes의 비율을 구해보자  ⇨ Infarction Yes : 28/69 =  𝛑 1 ✔ 이번에는 Drug never used 그룹 에서 Infarction Yes의 비율을 구해보자  ⇨  Infarction Yes  : 35/167 =  𝛑 2 ❗이 경우 상대위험도(Relative Risk; RR) 는 다음과 같다. RR =  𝛑 1  /   𝛑 2  = ( 28/69) / ( 35/167) 📈 이번에는 Odds를 구해보자 ✔ Drug used 그룹 의 Odds = Odds1 라고 한다면  Odds1 =  𝛑 1 /(1- 𝛑 1 ) = 28/41 ✔ Drug never used 그룹 의 Odds = Odds2 라고 한다면  Odds2 =  𝛑 2 /(2- 𝛑 2 ) = 35/132 ❗ 따라서 오즈비(Odds Ratio) 는 다음과 같다.  OR = (28*132)/(41*35) ...

GLM의 모형진단 - GLM part. 4

 회귀 모형 (Regression model) 을 적합하고 모형 진단을 할 때 여러 검정이 필요한데, 그 중에서도 먼저 적합도 검정에 대해서 살펴보고자 한다. 관심 있는 모형을  M  이라 하고, 이  모형이 잘 적합되었는지 검정을 해보자. ✅적합도 검정 (Goodness of fit test) 이란?  -포화모형에는 포함되어 있지만 간단한 모형에는 포함되지 않는 모든 모수가 0인지 검정하는 것 ✔  귀무가설 : 간단한 모형 (현재 고려하고 있는 모형 = M) ✔  대립가설 : 포화모형 (가장 복잡한 모형) 유의확률이 클수록 귀무가설을 기각하지 못하기 때문에 간단한 모형을 선택하게 된다. 즉, 유의확률이 크다면 간단한 모형이  복잡모형과의 설명력에서 차이가 없으므로 간단한 모형을 사용하면 된다. 범주형 변수 4개(binary)가 있다면 모수가 4개. ✅ 적합도와 이탈도 GLM에서 적합도 검정을 위한 가능도비 통계량 1. 이탈도(Deviance)  = -2[Lm-Ls]       Ls :포화모형의 이탈도,  Lm : 간단모델의 이탈도 값이 클수록 포화모형과 비교했을 때 축소모형의 설명력이 좋지 못하다는 해석을 내릴 수 있음. P-value가 작을수록 적합결여에 대한 강한 증거가 된다. 2.  대표본의 경우 근사적으로  카이제곱 분포 를 따름. 예측변수가 모두 범주형 변수인 경우, 전체 Data는 분할표의 도수로 요약할 수 있다. 잔차를 이용해 적합도를 살펴볼 수 있다.   L M = 모형 M  에서 얻은 로그 가능도함수의 최댓값 L S = 가능한 모형 중에서 가장 복잡한 모형에서의 로그 가능도함수의 최댓값 가장 복잡한 모형을 포화모형 saturated model 이라고 하고, 이 모형은 각 관측값에 대해 모수를 가지므로 완벽하게 자료를 적합시킨다. 포화모형은 모수들을 더 많이 포함하기 때문에 포화모형...

GLM에서 설명변수에 대한 검정 - GLM part. 3

 GLM 적합 후에 여러 가지를 검정해야 하는데, 이번에는 설명변수에 대한 검정을 살펴보도록 하겠다. 표본이 큰 경우에  GLM의 ML 추정량들은 근사적으로 정규분포를 따른다. 설명변수가 한 개인 GLM을 생각해보자. (1) 왈드검정 Wald 귀무가설 β=0 을 검정하기 위한 왈드 검정통계량은 다음과 같다. $$ z=\hat{\beta}/SE $$ 귀무가설 하에서 z는 근사적으로 표준정규분포 를 따른다. $$ z^{2} \sim \chi^{2} (df=1) $$ 이항모수 𝛑에 대하여 SE 는 다음과 같다. $$ SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n} $$ (2) 가능도비 검정 Likelihood ratio l   0 = 귀무가설 하에서의 가능도함수의 최댓값 l  1 = 완전모형 하에서의 가능도함수의 최댓값 $$ 2log(l_{1}/l_{0})=2[log(l_{1})-log(l_{0})]=2(L_{1}-L_{0}) $$ L0 = 귀무가설 하에서의 로그 가능도함수의 최댓값 L1 = 완전모형 하에서의 로그 가능도 함수의 최댓값 (로그변환과 두 배를 하면 대략적으로 카이제곱 표본분포를 따르게 됨) 귀무가설 β=0 하에서 2( L 1 - L 0 ) 이 검정통계량은 근사적으로 자유도가 1인 카이제곱분포 를 따른다. 가능도비 검정은 일반적으로 왈드검정보다 statistical power가 더 높다고 평가 받는다. (3) 스코어 검정 score test 왈드 검정과 달리 추정된 표준오차값이 아닌, 귀무가설이 참일 때 타당한 표준오차값(SE 0 ) 을 이용한다. 왈드 검정에서 SE는 다음과 같다. $$ SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n} $$ z검정에서 사용하는 표준오차 즉, 스코어 검정에서 SE 0 는 다음과 같다. $$ SE_{0}=\sqrt{\pi_{0}(1-\pi_{0})/n} $$

도수에 대한 일반화선형모형 GLM Part. 2

 앞선 글에서는 이항자료를 관측값으로 갖는 경우에 모형을 어떻게 적합할 것인가를 살펴보았다.  그럼 Counts 도수를 관측값으로 갖는 경우에는 어떻게 적합할까? 📋 도수를 관측값으로 갖는 범주형 반응변수 들은 예를 들어 ①디바이스 개수 ②실리콘 기판의 결함수 등이 있다. 도수자료를 가질 때 some GLM은 랜덤성분에 대해 포아송 분포 Poisson distribution을 가정한다. ❗포아송 확률은 다음 식과 같다. $$ p(y)=\frac{e^{-\mu} \mu^{y}}{y!} , y=0,1,2, \cdots $$ 포아송 분포를 따르는 데이터는 모수가 한 개 다. 그 모수는 바로 μ E(Y)  =  Var(Y)  = μ 포아송의 평균을 모형화할 때에는 로그변환된 평균 을 사용하는 것이 일반적이다. GLM에는 세 가지 성분이 있다고 했는데, 도수자료를 가지는 GLM에서의 세 가지 성분에 대해 살펴보자. ✔ 랜덤성분: 포아송 분포 ✔ 자연모수: 로그 평균 ✔ 연결함수: log(μ) 포아송 로그 선형모형의 함수 그림은 아래와 같다. 하나의 설명변수 x에 대하여 포아송 로그 선형모형은 다음과 같다. $$ log\mu=\alpha+\beta x $$ 따라서 위 모형에서 평균 μ를 계산하면 다음과 같다. $$ \mu=exp(\alpha+\beta x)=e^{\alpha}e^{\beta x}=e^{\alpha}(e^{\beta})^{x} $$ 위 모형의 의미는 x가 한 단위 증가하면 μ가 exp(β)배 만큼 커진다는 뜻이다.