Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

라벨이 포아송 로그 선형모형인 게시물 표시

도수에 대한 일반화선형모형 GLM Part. 2

 앞선 글에서는 이항자료를 관측값으로 갖는 경우에 모형을 어떻게 적합할 것인가를 살펴보았다.  그럼 Counts 도수를 관측값으로 갖는 경우에는 어떻게 적합할까? 📋 도수를 관측값으로 갖는 범주형 반응변수 들은 예를 들어 ①디바이스 개수 ②실리콘 기판의 결함수 등이 있다. 도수자료를 가질 때 some GLM은 랜덤성분에 대해 포아송 분포 Poisson distribution을 가정한다. ❗포아송 확률은 다음 식과 같다. $$ p(y)=\frac{e^{-\mu} \mu^{y}}{y!} , y=0,1,2, \cdots $$ 포아송 분포를 따르는 데이터는 모수가 한 개 다. 그 모수는 바로 μ E(Y)  =  Var(Y)  = μ 포아송의 평균을 모형화할 때에는 로그변환된 평균 을 사용하는 것이 일반적이다. GLM에는 세 가지 성분이 있다고 했는데, 도수자료를 가지는 GLM에서의 세 가지 성분에 대해 살펴보자. ✔ 랜덤성분: 포아송 분포 ✔ 자연모수: 로그 평균 ✔ 연결함수: log(μ) 포아송 로그 선형모형의 함수 그림은 아래와 같다. 하나의 설명변수 x에 대하여 포아송 로그 선형모형은 다음과 같다. $$ log\mu=\alpha+\beta x $$ 따라서 위 모형에서 평균 μ를 계산하면 다음과 같다. $$ \mu=exp(\alpha+\beta x)=e^{\alpha}e^{\beta x}=e^{\alpha}(e^{\beta})^{x} $$ 위 모형의 의미는 x가 한 단위 증가하면 μ가 exp(β)배 만큼 커진다는 뜻이다.