Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

라벨이 이항분포인 게시물 표시

통계 기초 : 확률 분포 - (2) 이항분포의 정규근사

 처음 통계를 접할 때 이해하기 어려웠던 것이 모평균, 표본평균, 표본평균의 평균 개념이었다. 지금 생각해보면 저 단어의 의미를 잘 살펴보기만 하면 크게 어렵지 않은 개념인데, 처음엔 다 어려워 보이듯이 표본평균과 표본평균의 평균이라는 개념이 잘 이해가 가지 않았다.  표본평균은 표본들의 평균이고, 왜 구하는지 이해가 갔는데 표본평균의 평균은 도대체 왜 구해야하는지 잘 이해가 가지 않았다. 표본평균은 중요한 성질들이 있다. 모집단을 임의로 정한 후, 시뮬레이션을 해보면, 1) 표본평균의 전체평균은 모평균과 같다. 2) 표본평균은 모평균의 비편향추정량(unbiased estimator)이다. 3) 표본평균은 모평균과 서로 다르지만 표본평균의 도수들은 모평균 주위에 많이 몰려 있다. 4) 모든 가능한 표본평균의 분포는 모평균을 중심으로 대칭형이다. 모집단이 매우 크다면, 모든 가능한 표본을 찾아 표본평균의 분포를 찾는 것은 불가능하지만 위 성질들은 ①모집단이 크거나 ②다른 분포형태를 가져도, 변함이 없다. 모평균 µ와 모분산 σ 2  를 갖는 모집단에서 추출한 랜덤표본을 X 1 , X 2 , ... , X n  이라 하면, 이들의 표본평균은 다음과 같다. $$ \overline{X} = \frac{1}{n}(X_{1}+X_{2}+...+X_{n}) $$  $$ E(\overline{X})=\mu, Var(\overline{X})=\frac{\sigma^{2}}{n} $$ 모집단이 무한모집단이고 표본크기가 충분히 크면 모집단이 어떠한 분포이더라도 표본평균의 분포는 근사적으로 정규분포를 따른다. 이를 중심극한정리 (central limit theorem) 라 한다.  중심극한정리에 따르면 모집단의 분포와 관계없이 표본크기가 충분이 크면 표본평균은 정규분포를 따른다.  $$ \overline{X} \sim N(\mu, \frac{\sigma^{2}}{n}) $$ 따라서 이항확률변수의 분포 역시, 표본크...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

이항자료에 대한 일반화선형모형 GLM part.1

 회귀모형을 적합할 때 적합하고자 하는 모형의 반응변수가 Binary data라면 어떻게 모형을 만들어야 할까? 반응변수가 두 가지의 범주 를 갖고 있는 경우가 참 많다. 예를 들면.. (예, 아니오) (성공, 실패) (양성, 음성) 이항반응변수를 Y 라 표시하고, 성공을 1, 실패를 0이라 나타내면, 반응변수 Y의 분포는 성공에 대한 확률 P( Y =1)=π 와 실패에 대한 확률 P( Y =0)=(1-π)로 표현할 수 있다. 이 분포의 평균 E( Y )=π 이며, n개의 서로 독립적인 이항반응변수의 관측값으로부터 관측된 성공횟수는 n 과 π 를 모수로 갖는 이항분포 를 따른다. 모수: n, π 이항반응변수를 갖는 값들을 회귀모델을 만드는 방법은 크게 두 가지이다. 1. 선형확률모형 먼저 이항반응변수를 갖는 값들을 보통선형모형을 이용해 항등연결함수를 사용해보도록 하겠다. $$ P(Y=1)=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$ 이 모형은 성공확률이 설명변수에 따라 선형적으로 변하므로 Linear probability model 라고 부른다. 다른 변수가 고정되어 있을 때, x1이 한 단위 변한다면 모수 Beta1은 확률 P(Y=1)의 변화량을 의미한다. 한계점: 확률은 0과 1 사이의 값. 선형함수는 실수 전체에 걸쳐 값을 가질 수 있음.  2. 로지스틱 회귀모형 P( Y =1) 와 x의 관계는 비선형 형태이다. x의 변화량은 P(Y=1)가 0이나 1에 가까이 있을 때, 중앙일 때보다 영향을 덜 미치게 된다.  로지스틱 회귀함수 Logistic regression function은 다음과 같이 표현할 수 있다. $$ P(Y=1) = \frac{exp(\alpha+\beta x)}{1+exp(\alpha+\beta x)} $$ 모수 베타는 곡선이 증가하거나 감소하는 속도를 결정함. 만일 설명변수가 여러개라면 다음과 같이 표현 가능하다. $$ log[\frac{P(Y=1)}{...