Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

라벨이 선형모형인 게시물 표시

선형모형: 정규랜덤성분을 가정한 GLM

 Linear Regression 과 GLM은 어떤 관계일까? 우리가 흔히 생각하는 선형회귀모형(Linear regression model)은 GLM의 특별한 경우다. 앞선 글에서 GLM의 세 가지 성분 을 살펴보았다. ①랜덤성분 ②선형예측식 ③연결함수 간단히 복습하면.. 랜덤성분 - 반응변수 Y를 명시 선형예측식 - 설명변수 X를 명시 연결함수 - 반응변수 Y에 대한 확률분포의 기댓값 μ=E(Y)와 선형예측식을 연결하는 함수 g 를 명시 Linear regression model에서는 Y 랜덤성분 에 대해서 정규분포 를 가정하고, 항등연결함수 g(μ)=μ 를 이용하여 평균을 직접적으로 모형화할 수 있다. "GLM은 보통 선형모형을 두 가지로 일반화 시킨 모형이다." 참 이해하기 어려운 문장들이 가득한 GLM.. (1) 첫 번째 일반화는 랜덤성분이 정규분포가 아닌 다른 분포 를 갖게 하는 것 (2) 두 번째 일반화는 평균의 함수를 모형화 하는 것  ⇨ 이 두 가지는 categorical analysis에서 중요함 ❓"Yes or No" 라던지 포아송분포와 같은 이산형 반응변수를 가진 자료를 분석하는 전형적인 방법은 반응변수를 적당히 변환해 일정한 분산을 갖는 정규분포에 가깝도록 근사시킨 후에 최소제곱법을 이용해 선형회귀모델을 만드는 것이다. 그러나.. 이 방법은 한계를 가지는데, 예를 들면 확률값이 1이 넘거나 마이너스 값을 가질 수 있다는 점이다. 따라서 이산형 반응변수를 가진 자료를 가지고 회귀모형을 적합할 때에 위와 같은 방법은 권장되지 않는 방법이다. ✅ GLM을 이용하면 정규이론 방법을 적용하기 위해 필요했던 변환 작업이 필요없다. ❓Why? GLM의 적합과정 중 선택한 랜덤성분에 대해 ML방법을 사용 하기 때문에 랜덤성분의 정규성 조건이 필요 없어지기 때문 + 어떤 연결함수가 선형모형이 만족되면 그 연결함수가 정규성을 만족하거나 분산을 일정하게 만드는 역할을 할 필요가 없음. 위 문장이 전부 한 번에 이해되...