Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

라벨이 GLM인 게시물 표시

GLM과 이탈도 - 모형검정 & 적합도검정

 GLM에서 이탈도 이탈도 Deviance란 무엇일까? GLM에서 이탈도 deviance는 선형회귀모형에서 잔차제곱합에 대응하는 값으로 표본과 적합된 모형 간 편차를 정량화 하는 값이다. GLM에서 이탈도로 할 수 있는 검정이 무엇이 있을까? 1. 모형의 유의성 검정 2. 모형의 적합도평가 GLM 모형을 적합하면 다음과 같은 결과가 나오는데, 이탈도 값은 2개가 나온다. ①Null deviance ②Residual deviance 이 두 개의 이탈도 값이다. ①Null deviance는 절편만 있는 모형에서의 이탈도 ②Residual deviance는 β  가 포함된 모형에서의 이탈도를 의미한다. 먼저 ① 모형의 유의성 검정 을 살펴보겠다. 유의성 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설:  β1  =  β2  = 0 (Null model) 대립가설: 적어도 하나는 0이 아니다. 이를 검정하기 위한 검정통계량 LR(=가능도비 검정통계량) 은 다음과 같다. LR = [Null deviance] - [Residual deviance] = 2(현재모형 하에서 로그가능도 함수의 최댓값 - 귀무가설 하에서 로그가능도 함수의 최댓값) 따라서 이를 위 적합 결과에 적용하면 $$ LR = 225.76 - 189.12 = 36.64 $$ $$ 1 - pchisq(36.64, df=2) = 1.1(10)^{-8} $$ 결론: 유의확률이 매우 작으므로 귀무가설을 기각하고 대립가설을 선택할 수 있다. 모형의 유의성 검정에 대해 살펴보았으니 이번에는 두 번째인 ② 모형의 적합도 검정 을 살펴보자. 적합도 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설: 현재의 단순한 모형 M (=모형M에 포함되지 않은 모수들은 모두 0이다.) 대립가설: 포화모형 saturated model 이를 검정하기 위한 검정통계량은 이탈도 통계량으로 다음과 같이 정의한다. 이탈도 통계량 = 2[포화모형 로그가능도함수의 최댓값 ...

GLM의 모형진단 - GLM part. 4

 회귀 모형 (Regression model) 을 적합하고 모형 진단을 할 때 여러 검정이 필요한데, 그 중에서도 먼저 적합도 검정에 대해서 살펴보고자 한다. 관심 있는 모형을  M  이라 하고, 이  모형이 잘 적합되었는지 검정을 해보자. ✅적합도 검정 (Goodness of fit test) 이란?  -포화모형에는 포함되어 있지만 간단한 모형에는 포함되지 않는 모든 모수가 0인지 검정하는 것 ✔  귀무가설 : 간단한 모형 (현재 고려하고 있는 모형 = M) ✔  대립가설 : 포화모형 (가장 복잡한 모형) 유의확률이 클수록 귀무가설을 기각하지 못하기 때문에 간단한 모형을 선택하게 된다. 즉, 유의확률이 크다면 간단한 모형이  복잡모형과의 설명력에서 차이가 없으므로 간단한 모형을 사용하면 된다. 범주형 변수 4개(binary)가 있다면 모수가 4개. ✅ 적합도와 이탈도 GLM에서 적합도 검정을 위한 가능도비 통계량 1. 이탈도(Deviance)  = -2[Lm-Ls]       Ls :포화모형의 이탈도,  Lm : 간단모델의 이탈도 값이 클수록 포화모형과 비교했을 때 축소모형의 설명력이 좋지 못하다는 해석을 내릴 수 있음. P-value가 작을수록 적합결여에 대한 강한 증거가 된다. 2.  대표본의 경우 근사적으로  카이제곱 분포 를 따름. 예측변수가 모두 범주형 변수인 경우, 전체 Data는 분할표의 도수로 요약할 수 있다. 잔차를 이용해 적합도를 살펴볼 수 있다.   L M = 모형 M  에서 얻은 로그 가능도함수의 최댓값 L S = 가능한 모형 중에서 가장 복잡한 모형에서의 로그 가능도함수의 최댓값 가장 복잡한 모형을 포화모형 saturated model 이라고 하고, 이 모형은 각 관측값에 대해 모수를 가지므로 완벽하게 자료를 적합시킨다. 포화모형은 모수들을 더 많이 포함하기 때문에 포화모형...

GLM에서 설명변수에 대한 검정 - GLM part. 3

 GLM 적합 후에 여러 가지를 검정해야 하는데, 이번에는 설명변수에 대한 검정을 살펴보도록 하겠다. 표본이 큰 경우에  GLM의 ML 추정량들은 근사적으로 정규분포를 따른다. 설명변수가 한 개인 GLM을 생각해보자. (1) 왈드검정 Wald 귀무가설 β=0 을 검정하기 위한 왈드 검정통계량은 다음과 같다. $$ z=\hat{\beta}/SE $$ 귀무가설 하에서 z는 근사적으로 표준정규분포 를 따른다. $$ z^{2} \sim \chi^{2} (df=1) $$ 이항모수 𝛑에 대하여 SE 는 다음과 같다. $$ SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n} $$ (2) 가능도비 검정 Likelihood ratio l   0 = 귀무가설 하에서의 가능도함수의 최댓값 l  1 = 완전모형 하에서의 가능도함수의 최댓값 $$ 2log(l_{1}/l_{0})=2[log(l_{1})-log(l_{0})]=2(L_{1}-L_{0}) $$ L0 = 귀무가설 하에서의 로그 가능도함수의 최댓값 L1 = 완전모형 하에서의 로그 가능도 함수의 최댓값 (로그변환과 두 배를 하면 대략적으로 카이제곱 표본분포를 따르게 됨) 귀무가설 β=0 하에서 2( L 1 - L 0 ) 이 검정통계량은 근사적으로 자유도가 1인 카이제곱분포 를 따른다. 가능도비 검정은 일반적으로 왈드검정보다 statistical power가 더 높다고 평가 받는다. (3) 스코어 검정 score test 왈드 검정과 달리 추정된 표준오차값이 아닌, 귀무가설이 참일 때 타당한 표준오차값(SE 0 ) 을 이용한다. 왈드 검정에서 SE는 다음과 같다. $$ SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n} $$ z검정에서 사용하는 표준오차 즉, 스코어 검정에서 SE 0 는 다음과 같다. $$ SE_{0}=\sqrt{\pi_{0}(1-\pi_{0})/n} $$

도수에 대한 일반화선형모형 GLM Part. 2

 앞선 글에서는 이항자료를 관측값으로 갖는 경우에 모형을 어떻게 적합할 것인가를 살펴보았다.  그럼 Counts 도수를 관측값으로 갖는 경우에는 어떻게 적합할까? 📋 도수를 관측값으로 갖는 범주형 반응변수 들은 예를 들어 ①디바이스 개수 ②실리콘 기판의 결함수 등이 있다. 도수자료를 가질 때 some GLM은 랜덤성분에 대해 포아송 분포 Poisson distribution을 가정한다. ❗포아송 확률은 다음 식과 같다. $$ p(y)=\frac{e^{-\mu} \mu^{y}}{y!} , y=0,1,2, \cdots $$ 포아송 분포를 따르는 데이터는 모수가 한 개 다. 그 모수는 바로 μ E(Y)  =  Var(Y)  = μ 포아송의 평균을 모형화할 때에는 로그변환된 평균 을 사용하는 것이 일반적이다. GLM에는 세 가지 성분이 있다고 했는데, 도수자료를 가지는 GLM에서의 세 가지 성분에 대해 살펴보자. ✔ 랜덤성분: 포아송 분포 ✔ 자연모수: 로그 평균 ✔ 연결함수: log(μ) 포아송 로그 선형모형의 함수 그림은 아래와 같다. 하나의 설명변수 x에 대하여 포아송 로그 선형모형은 다음과 같다. $$ log\mu=\alpha+\beta x $$ 따라서 위 모형에서 평균 μ를 계산하면 다음과 같다. $$ \mu=exp(\alpha+\beta x)=e^{\alpha}e^{\beta x}=e^{\alpha}(e^{\beta})^{x} $$ 위 모형의 의미는 x가 한 단위 증가하면 μ가 exp(β)배 만큼 커진다는 뜻이다.

이항자료에 대한 일반화선형모형 GLM part.1

 회귀모형을 적합할 때 적합하고자 하는 모형의 반응변수가 Binary data라면 어떻게 모형을 만들어야 할까? 반응변수가 두 가지의 범주 를 갖고 있는 경우가 참 많다. 예를 들면.. (예, 아니오) (성공, 실패) (양성, 음성) 이항반응변수를 Y 라 표시하고, 성공을 1, 실패를 0이라 나타내면, 반응변수 Y의 분포는 성공에 대한 확률 P( Y =1)=π 와 실패에 대한 확률 P( Y =0)=(1-π)로 표현할 수 있다. 이 분포의 평균 E( Y )=π 이며, n개의 서로 독립적인 이항반응변수의 관측값으로부터 관측된 성공횟수는 n 과 π 를 모수로 갖는 이항분포 를 따른다. 모수: n, π 이항반응변수를 갖는 값들을 회귀모델을 만드는 방법은 크게 두 가지이다. 1. 선형확률모형 먼저 이항반응변수를 갖는 값들을 보통선형모형을 이용해 항등연결함수를 사용해보도록 하겠다. $$ P(Y=1)=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$ 이 모형은 성공확률이 설명변수에 따라 선형적으로 변하므로 Linear probability model 라고 부른다. 다른 변수가 고정되어 있을 때, x1이 한 단위 변한다면 모수 Beta1은 확률 P(Y=1)의 변화량을 의미한다. 한계점: 확률은 0과 1 사이의 값. 선형함수는 실수 전체에 걸쳐 값을 가질 수 있음.  2. 로지스틱 회귀모형 P( Y =1) 와 x의 관계는 비선형 형태이다. x의 변화량은 P(Y=1)가 0이나 1에 가까이 있을 때, 중앙일 때보다 영향을 덜 미치게 된다.  로지스틱 회귀함수 Logistic regression function은 다음과 같이 표현할 수 있다. $$ P(Y=1) = \frac{exp(\alpha+\beta x)}{1+exp(\alpha+\beta x)} $$ 모수 베타는 곡선이 증가하거나 감소하는 속도를 결정함. 만일 설명변수가 여러개라면 다음과 같이 표현 가능하다. $$ log[\frac{P(Y=1)}{...

선형모형: 정규랜덤성분을 가정한 GLM

 Linear Regression 과 GLM은 어떤 관계일까? 우리가 흔히 생각하는 선형회귀모형(Linear regression model)은 GLM의 특별한 경우다. 앞선 글에서 GLM의 세 가지 성분 을 살펴보았다. ①랜덤성분 ②선형예측식 ③연결함수 간단히 복습하면.. 랜덤성분 - 반응변수 Y를 명시 선형예측식 - 설명변수 X를 명시 연결함수 - 반응변수 Y에 대한 확률분포의 기댓값 μ=E(Y)와 선형예측식을 연결하는 함수 g 를 명시 Linear regression model에서는 Y 랜덤성분 에 대해서 정규분포 를 가정하고, 항등연결함수 g(μ)=μ 를 이용하여 평균을 직접적으로 모형화할 수 있다. "GLM은 보통 선형모형을 두 가지로 일반화 시킨 모형이다." 참 이해하기 어려운 문장들이 가득한 GLM.. (1) 첫 번째 일반화는 랜덤성분이 정규분포가 아닌 다른 분포 를 갖게 하는 것 (2) 두 번째 일반화는 평균의 함수를 모형화 하는 것  ⇨ 이 두 가지는 categorical analysis에서 중요함 ❓"Yes or No" 라던지 포아송분포와 같은 이산형 반응변수를 가진 자료를 분석하는 전형적인 방법은 반응변수를 적당히 변환해 일정한 분산을 갖는 정규분포에 가깝도록 근사시킨 후에 최소제곱법을 이용해 선형회귀모델을 만드는 것이다. 그러나.. 이 방법은 한계를 가지는데, 예를 들면 확률값이 1이 넘거나 마이너스 값을 가질 수 있다는 점이다. 따라서 이산형 반응변수를 가진 자료를 가지고 회귀모형을 적합할 때에 위와 같은 방법은 권장되지 않는 방법이다. ✅ GLM을 이용하면 정규이론 방법을 적용하기 위해 필요했던 변환 작업이 필요없다. ❓Why? GLM의 적합과정 중 선택한 랜덤성분에 대해 ML방법을 사용 하기 때문에 랜덤성분의 정규성 조건이 필요 없어지기 때문 + 어떤 연결함수가 선형모형이 만족되면 그 연결함수가 정규성을 만족하거나 분산을 일정하게 만드는 역할을 할 필요가 없음. 위 문장이 전부 한 번에 이해되...

GLM 일반화선형모형의 성분

 모든 GLM은 세 개의 성분이 있다. (1) 랜덤성분 random component  - 반응변수 Y 를 정의하며, 반응변수 Y에 대한 확률분포를 가정한다. (2) 선형예측식 linear predictor - 설명변수(=독립변수) 들을 명시함. 변수들이 선형식의 우변에 다음과 같은 형태로, 예측변수들의 선형식으로 들어가는 것을 의미한다. $$ \alpha+\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$ 모형에 대한 통계적 추론은 독립변수들의 관측값들을 고정된 값으로 간주한 조건부 추론을 하게 됨. (3) 연결함수 link function - Y에 대한 확률분포의 기댓값 E(Y)는 설명변수(=독립변수)들의 값에 따라 달라진다. $$ g(\mu)=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$ 여기에서 연결함수는 "g" 로 랜덤성분과 설명변수들의 선형예측식을 연결하는 함수다. ✔ 연결함수의 가장 간단한 형태는 $$ g(\mu)=\mu $$  이 연결함수는 평균자체를 모형화하므로 항등연결함수 identity link function 라고 한다. $$ \mu=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$ 이 형태는 연속형(=양적) 반응변수에 대한 보통의 회귀모형 형태다. 일반적인 선형회귀(linear regression)이라 생각하면 된다. ❗다른 연결함수를 사용하면 µ 를 설명변수의 비선형식 으로 표현이 가능하다. ✔ 예를 들면 아래 식은 평균의 로그 변환된 값 을 모형화한 것이다. $$ g(\mu)=log(\mu) $$  로그함수는 양수에 대해서 정의된다. 로그 연결함수는 µ   가 도수를 나타내는 자료와 같이 양의 값을 가질 때 적절히 사용가능하다. 아래 식은 로그선형모형이라 부른다. $$ log(\mu)=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n}$$ ❗아래 연결함수는 오즈...