앞선 글에서는 이항자료를 관측값으로 갖는 경우에 모형을 어떻게 적합할 것인가를 살펴보았다. 그럼 Counts 도수를 관측값으로 갖는 경우에는 어떻게 적합할까?
📋도수를 관측값으로 갖는 범주형 반응변수들은 예를 들어 ①디바이스 개수 ②실리콘 기판의 결함수 등이 있다.
도수자료를 가질 때 some GLM은 랜덤성분에 대해 포아송 분포 Poisson distribution을 가정한다.
❗포아송 확률은 다음 식과 같다.
$$ p(y)=\frac{e^{-\mu} \mu^{y}}{y!} , y=0,1,2, \cdots $$
포아송 분포를 따르는 데이터는 모수가 한 개다. 그 모수는 바로 μ
E(Y) = Var(Y) = μ
포아송의 평균을 모형화할 때에는 로그변환된 평균을 사용하는 것이 일반적이다.
GLM에는 세 가지 성분이 있다고 했는데, 도수자료를 가지는 GLM에서의 세 가지 성분에 대해 살펴보자.
✔ 랜덤성분: 포아송 분포
✔ 자연모수: 로그 평균
✔ 연결함수: log(μ)
포아송 로그 선형모형의 함수 그림은 아래와 같다.
하나의 설명변수 x에 대하여 포아송 로그 선형모형은 다음과 같다.
$$ log\mu=\alpha+\beta x $$
따라서 위 모형에서 평균 μ를 계산하면 다음과 같다.
$$ \mu=exp(\alpha+\beta x)=e^{\alpha}e^{\beta x}=e^{\alpha}(e^{\beta})^{x} $$
위 모형의 의미는 x가 한 단위 증가하면 μ가 exp(β)배 만큼 커진다는 뜻이다.
댓글
댓글 쓰기