GLM 일반화선형모형의 성분

모든 GLM은 세 개의 성분이 있다.

(1) 랜덤성분 random component

- 반응변수 Y를 정의하며, 반응변수 Y에 대한 확률분포를 가정한다.

(2) 선형예측식 linear predictor

- 설명변수(=독립변수)들을 명시함. 변수들이 선형식의 우변에 다음과 같은 형태로, 예측변수들의 선형식으로 들어가는 것을 의미한다.

$$ \alpha+\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$

모형에 대한 통계적 추론은 독립변수들의 관측값들을 고정된 값으로 간주한 조건부 추론을 하게 됨.

(3) 연결함수 link function

- Y에 대한 확률분포의 기댓값 E(Y)는 설명변수(=독립변수)들의 값에 따라 달라진다.

$$ g(\mu)=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$

여기에서 연결함수는 "g" 로 랜덤성분과 설명변수들의 선형예측식을 연결하는 함수다.

✔ 연결함수의 가장 간단한 형태는

$$ g(\mu)=\mu $$

이 연결함수는 평균자체를 모형화하므로 항등연결함수 identity link function 라고 한다.

$$ \mu=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$

이 형태는 연속형(=양적) 반응변수에 대한 보통의 회귀모형 형태다. 일반적인 선형회귀(linear regression)이라 생각하면 된다.

❗다른 연결함수를 사용하면 µ를 설명변수의 비선형식으로 표현이 가능하다.

✔ 예를 들면 아래 식은 평균의 로그 변환된 값을 모형화한 것이다.

$$ g(\mu)=log(\mu) $$

로그함수는 양수에 대해서 정의된다.

로그 연결함수는 µ 가 도수를 나타내는 자료와 같이 양의 값을 가질 때 적절히 사용가능하다.

아래 식은 로그선형모형이라 부른다.

$$ log(\mu)=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n}$$

❗아래 연결함수는 오즈의 로그값을 모형화한다.

$$ g(\mu)=log(\frac{\mu}{1-\mu}) $$

이 연결함수는 로짓함수 Logit Link 라고 부른다. 이 연결함수는 µ 가 확률과 같이 0과 1사이에 있을 때 적절히 사용 가능하다.

로짓함수를 이용한 GLM을 로지스틱 회귀모형 logistic regression model 이라고 한다.

Bioinformatics with Park-Kleis