Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

라벨이 logistic regression인 게시물 표시

이항자료에 대한 일반화선형모형 GLM part.1

 회귀모형을 적합할 때 적합하고자 하는 모형의 반응변수가 Binary data라면 어떻게 모형을 만들어야 할까? 반응변수가 두 가지의 범주 를 갖고 있는 경우가 참 많다. 예를 들면.. (예, 아니오) (성공, 실패) (양성, 음성) 이항반응변수를 Y 라 표시하고, 성공을 1, 실패를 0이라 나타내면, 반응변수 Y의 분포는 성공에 대한 확률 P( Y =1)=π 와 실패에 대한 확률 P( Y =0)=(1-π)로 표현할 수 있다. 이 분포의 평균 E( Y )=π 이며, n개의 서로 독립적인 이항반응변수의 관측값으로부터 관측된 성공횟수는 n 과 π 를 모수로 갖는 이항분포 를 따른다. 모수: n, π 이항반응변수를 갖는 값들을 회귀모델을 만드는 방법은 크게 두 가지이다. 1. 선형확률모형 먼저 이항반응변수를 갖는 값들을 보통선형모형을 이용해 항등연결함수를 사용해보도록 하겠다. $$ P(Y=1)=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$ 이 모형은 성공확률이 설명변수에 따라 선형적으로 변하므로 Linear probability model 라고 부른다. 다른 변수가 고정되어 있을 때, x1이 한 단위 변한다면 모수 Beta1은 확률 P(Y=1)의 변화량을 의미한다. 한계점: 확률은 0과 1 사이의 값. 선형함수는 실수 전체에 걸쳐 값을 가질 수 있음.  2. 로지스틱 회귀모형 P( Y =1) 와 x의 관계는 비선형 형태이다. x의 변화량은 P(Y=1)가 0이나 1에 가까이 있을 때, 중앙일 때보다 영향을 덜 미치게 된다.  로지스틱 회귀함수 Logistic regression function은 다음과 같이 표현할 수 있다. $$ P(Y=1) = \frac{exp(\alpha+\beta x)}{1+exp(\alpha+\beta x)} $$ 모수 베타는 곡선이 증가하거나 감소하는 속도를 결정함. 만일 설명변수가 여러개라면 다음과 같이 표현 가능하다. $$ log[\frac{P(Y=1)}{...