선형모형: 정규랜덤성분을 가정한 GLM

Linear Regression 과 GLM은 어떤 관계일까?

우리가 흔히 생각하는 선형회귀모형(Linear regression model)은 GLM의 특별한 경우다.

앞선 글에서 GLM의 세 가지 성분을 살펴보았다.

①랜덤성분 ②선형예측식 ③연결함수

간단히 복습하면..

랜덤성분 - 반응변수 Y를 명시

선형예측식 - 설명변수 X를 명시

연결함수 - 반응변수 Y에 대한 확률분포의 기댓값 μ=E(Y)와 선형예측식을 연결하는 함수 g를 명시

Linear regression model에서는 Y 랜덤성분에 대해서 정규분포를 가정하고, 항등연결함수 g(μ)=μ를 이용하여 평균을 직접적으로 모형화할 수 있다.

"GLM은 보통 선형모형을 두 가지로 일반화 시킨 모형이다."

참 이해하기 어려운 문장들이 가득한 GLM..

(1) 첫 번째 일반화는 랜덤성분이 정규분포가 아닌 다른 분포를 갖게 하는 것

(2) 두 번째 일반화는 평균의 함수를 모형화하는 것

⇨ 이 두 가지는 categorical analysis에서 중요함

❓"Yes or No" 라던지 포아송분포와 같은 이산형 반응변수를 가진 자료를 분석하는 전형적인 방법은 반응변수를 적당히 변환해 일정한 분산을 갖는 정규분포에 가깝도록 근사시킨 후에 최소제곱법을 이용해 선형회귀모델을 만드는 것이다.

그러나.. 이 방법은 한계를 가지는데, 예를 들면 확률값이 1이 넘거나 마이너스 값을 가질 수 있다는 점이다. 따라서 이산형 반응변수를 가진 자료를 가지고 회귀모형을 적합할 때에 위와 같은 방법은 권장되지 않는 방법이다.

✅ GLM을 이용하면 정규이론 방법을 적용하기 위해 필요했던 변환 작업이 필요없다.

❓Why? GLM의 적합과정 중 선택한 랜덤성분에 대해 ML방법을 사용하기 때문에 랜덤성분의 정규성 조건이 필요 없어지기 때문 + 어떤 연결함수가 선형모형이 만족되면 그 연결함수가 정규성을 만족하거나 분산을 일정하게 만드는 역할을 할 필요가 없음.

위 문장이 전부 한 번에 이해되지는 않지만 그래도 일단 넘어가면 된다.

Bioinformatics with Park-Kleis