Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

1월, 2022의 게시물 표시

수리통계학 - 이산형 확률변수의 확률분포

 이산형 확률분포의 종류  - 베르누이분포, 이항분포, 이산형균등분포, 기하분포, 초기하분포, 음이항 분포, 포아송 분포 등 이산형 확률변수의 적률생성함수는 다음과 같은 형태로 표현된다. $$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x) $$ 1. 베르누이 분포 베르누이 시행의 확률변수 X의 분포는 X=1의 확률에 의해 정의된다. (X=0 or 1) P=P(X=1)=P(성공 ) 베르누이 시행의 확률질량함수 f(x)는 $$ f(x) = p^{x}(1-p)^{1-x}, x=0, 1 $$ 베르누이 분포의 기댓값과 분산은 다음과 같다. E(X)= p , Var(X)= p (1- p ) 베르누이분포의 적률생성함수는 다음과 같다. $$ M(t)=E(e^{tx})=(1-p)+pe^{t} $$ 적률생성함수 유도 과정은 아래와 같이 진행할 수 있다. $$ M(t)=E(e^{tX})=\sum_{x=0}^{1}e^{tx}f(x)=\sum_{x=0}^{1}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1}+e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$ 적률생성함수를 t에 대해 1차 미분한 후 t값에 0을 대입하면 평균을 도출할 수 있다. 베르누이 분포의 적률생성함수를 1차 미분하면  $$ M(t)=(1-p)+pe^{t}\Rightarrow M^{'}(t)=\frac{d}{dt}(1-p+pe^{t})=pe^{t} \Rightarrow M^{'}(0)=p $$ 2. 이항분포 베르누이 시행을 독립적으로 n번 반복하여 시행한 경우, 성공한 총 횟수를 X라 정의하면, 이 확률변수 X는 이항분포를 따른다. 이항분포의 확률질량함수 f(x)는 다음과 같다. $$ f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}, x= 0,1,2,...,n $$ 이항분포의 기댓값 E(X)= np , Var(X)= np (1- p ) 이다. 이항분포 ...

통계검정 : (1) 두 모비율의 추정과 가설검정

 지지율, 실업률, 불량률과 같이 모집단의 비율(p)을 추정하는 문제에 대해 생각해보자. 모집단이 두 개의 배반사건(찬성, 반대)으로 구성되어 있을 때, 찬성 모비율을 p, 반대 모비율을 (1-p)라 칭한다. $$ \widehat{p}=\frac{X}{n} , E(\widehat{p})=p, Var(\widehat{p})=\frac{p(1-p)}{n} $$  이때, 모집단에서 n개의 표본을 뽑으면 찬성자수 X는  표본수 n, 성공률이 p인  이항분포 B(n, p)를 따른다. $$ X \sim B(n, p) $$ E(X)=np, Var(X)=np(1-p) 이므로, $$ E(\frac{X}{n})=p, Var(\frac{X}{n})=\frac{1}{n^{2}}Var(X)=\frac{1}{n^{2}}np(1-p)=\frac{p(1-p)}{n} $$ 자세한 증명은  http://www.stat.yale.edu/Courses/1997-98/101/binom.htm  를 참고하면 된다. 표본크기가 충분히 크다면 표본비율은 정규분포를 따른다. $$ Z = \frac{\widehat{p}-p_{0}}{\sqrt{p_{0}(1-p_{0})/n}} , Z \sim N(0, 1) $$

통계 기초 : 확률 분포 - (2) 이항분포의 정규근사

 처음 통계를 접할 때 이해하기 어려웠던 것이 모평균, 표본평균, 표본평균의 평균 개념이었다. 지금 생각해보면 저 단어의 의미를 잘 살펴보기만 하면 크게 어렵지 않은 개념인데, 처음엔 다 어려워 보이듯이 표본평균과 표본평균의 평균이라는 개념이 잘 이해가 가지 않았다.  표본평균은 표본들의 평균이고, 왜 구하는지 이해가 갔는데 표본평균의 평균은 도대체 왜 구해야하는지 잘 이해가 가지 않았다. 표본평균은 중요한 성질들이 있다. 모집단을 임의로 정한 후, 시뮬레이션을 해보면, 1) 표본평균의 전체평균은 모평균과 같다. 2) 표본평균은 모평균의 비편향추정량(unbiased estimator)이다. 3) 표본평균은 모평균과 서로 다르지만 표본평균의 도수들은 모평균 주위에 많이 몰려 있다. 4) 모든 가능한 표본평균의 분포는 모평균을 중심으로 대칭형이다. 모집단이 매우 크다면, 모든 가능한 표본을 찾아 표본평균의 분포를 찾는 것은 불가능하지만 위 성질들은 ①모집단이 크거나 ②다른 분포형태를 가져도, 변함이 없다. 모평균 µ와 모분산 σ 2  를 갖는 모집단에서 추출한 랜덤표본을 X 1 , X 2 , ... , X n  이라 하면, 이들의 표본평균은 다음과 같다. $$ \overline{X} = \frac{1}{n}(X_{1}+X_{2}+...+X_{n}) $$  $$ E(\overline{X})=\mu, Var(\overline{X})=\frac{\sigma^{2}}{n} $$ 모집단이 무한모집단이고 표본크기가 충분히 크면 모집단이 어떠한 분포이더라도 표본평균의 분포는 근사적으로 정규분포를 따른다. 이를 중심극한정리 (central limit theorem) 라 한다.  중심극한정리에 따르면 모집단의 분포와 관계없이 표본크기가 충분이 크면 표본평균은 정규분포를 따른다.  $$ \overline{X} \sim N(\mu, \frac{\sigma^{2}}{n}) $$ 따라서 이항확률변수의 분포 역시, 표본크...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

McNemar Test (맥니마 검정법) - (2) 검정통계량

앞선 글에 이어서 대응쌍을 이루는 이항형 반응변수에 대한 주변동질성 검정법 을 더 살펴보고자 한다.  ❗ 대응쌍을 이루는 이항형 반응변수일 때, 주변동질성 검정법 의 귀무가설은 다음과 같다. $$ H_{0}: P(Y_{1}=1)=P(Y_{2}=1) $$ $$ H_{0}: \pi_{12}=\pi_{21} $$ 만약 귀무가설이 참이라면, n 12 와 n 21 가 비슷한 값을 가질 것이다.  n * = n 12 + n 21  가 두 칸의 도수합이라고 하면, 이렇게 두 개로 나뉘는 것은 binomial variate이기 때문이다. 귀무가설 H 0 : π 12 = π 21  하에서 n *  관측값이 n 12 와 n 21 가 될 확률은 1/2이다. 따라서 n 12 와 n 21 는 "성공횟수"와 "실패횟수"로, n *  번 시행일 때 성공의 확률이 1/2인 이항분포를 따른다. n * 이 10보다 클 때, 이 이항분포는 평균과 표준편차가 다음과 같은 정규분포와 비슷하게 된다.   $$ mean=\frac{1}{2}n^{*},  sd = \sqrt{n^{*}(\frac{1}{2})(\frac{1}{2})} $$ 따라서 표준화된 정규분포의 검정통계량은 다음과 같다. $$ z=\frac{n_{12}-(\frac{1}{2})n^{*}}{\sqrt{n^{*}(\frac{1}{2})(\frac{1}{2})}} = \frac{n_{12}-n_{21}}{\sqrt{n_{12}+n_{21}}} $$ 앞선 글에서 사용했던 표를 다시 가져와서 이 검정통계량에 대입해보면  Belt-Tightening Higher tax Agree Disagree Total Agree 227 132 359 Disagree 107 678 78...