Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

수리통계학 - 이산형 확률변수의 확률분포

 이산형 확률분포의 종류  - 베르누이분포, 이항분포, 이산형균등분포, 기하분포, 초기하분포, 음이항 분포, 포아송 분포 등 이산형 확률변수의 적률생성함수는 다음과 같은 형태로 표현된다. $$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x) $$ 1. 베르누이 분포 베르누이 시행의 확률변수 X의 분포는 X=1의 확률에 의해 정의된다. (X=0 or 1) P=P(X=1)=P(성공 ) 베르누이 시행의 확률질량함수 f(x)는 $$ f(x) = p^{x}(1-p)^{1-x}, x=0, 1 $$ 베르누이 분포의 기댓값과 분산은 다음과 같다. E(X)= p , Var(X)= p (1- p ) 베르누이분포의 적률생성함수는 다음과 같다. $$ M(t)=E(e^{tx})=(1-p)+pe^{t} $$ 적률생성함수 유도 과정은 아래와 같이 진행할 수 있다. $$ M(t)=E(e^{tX})=\sum_{x=0}^{1}e^{tx}f(x)=\sum_{x=0}^{1}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1}+e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$ 적률생성함수를 t에 대해 1차 미분한 후 t값에 0을 대입하면 평균을 도출할 수 있다. 베르누이 분포의 적률생성함수를 1차 미분하면  $$ M(t)=(1-p)+pe^{t}\Rightarrow M^{'}(t)=\frac{d}{dt}(1-p+pe^{t})=pe^{t} \Rightarrow M^{'}(0)=p $$ 2. 이항분포 베르누이 시행을 독립적으로 n번 반복하여 시행한 경우, 성공한 총 횟수를 X라 정의하면, 이 확률변수 X는 이항분포를 따른다. 이항분포의 확률질량함수 f(x)는 다음과 같다. $$ f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}, x= 0,1,2,...,n $$ 이항분포의 기댓값 E(X)= np , Var(X)= np (1- p ) 이다. 이항분포 ...

통계검정 : (1) 두 모비율의 추정과 가설검정

 지지율, 실업률, 불량률과 같이 모집단의 비율(p)을 추정하는 문제에 대해 생각해보자. 모집단이 두 개의 배반사건(찬성, 반대)으로 구성되어 있을 때, 찬성 모비율을 p, 반대 모비율을 (1-p)라 칭한다. $$ \widehat{p}=\frac{X}{n} , E(\widehat{p})=p, Var(\widehat{p})=\frac{p(1-p)}{n} $$  이때, 모집단에서 n개의 표본을 뽑으면 찬성자수 X는  표본수 n, 성공률이 p인  이항분포 B(n, p)를 따른다. $$ X \sim B(n, p) $$ E(X)=np, Var(X)=np(1-p) 이므로, $$ E(\frac{X}{n})=p, Var(\frac{X}{n})=\frac{1}{n^{2}}Var(X)=\frac{1}{n^{2}}np(1-p)=\frac{p(1-p)}{n} $$ 자세한 증명은  http://www.stat.yale.edu/Courses/1997-98/101/binom.htm  를 참고하면 된다. 표본크기가 충분히 크다면 표본비율은 정규분포를 따른다. $$ Z = \frac{\widehat{p}-p_{0}}{\sqrt{p_{0}(1-p_{0})/n}} , Z \sim N(0, 1) $$

통계 기초 : 확률 분포 - (2) 이항분포의 정규근사

 처음 통계를 접할 때 이해하기 어려웠던 것이 모평균, 표본평균, 표본평균의 평균 개념이었다. 지금 생각해보면 저 단어의 의미를 잘 살펴보기만 하면 크게 어렵지 않은 개념인데, 처음엔 다 어려워 보이듯이 표본평균과 표본평균의 평균이라는 개념이 잘 이해가 가지 않았다.  표본평균은 표본들의 평균이고, 왜 구하는지 이해가 갔는데 표본평균의 평균은 도대체 왜 구해야하는지 잘 이해가 가지 않았다. 표본평균은 중요한 성질들이 있다. 모집단을 임의로 정한 후, 시뮬레이션을 해보면, 1) 표본평균의 전체평균은 모평균과 같다. 2) 표본평균은 모평균의 비편향추정량(unbiased estimator)이다. 3) 표본평균은 모평균과 서로 다르지만 표본평균의 도수들은 모평균 주위에 많이 몰려 있다. 4) 모든 가능한 표본평균의 분포는 모평균을 중심으로 대칭형이다. 모집단이 매우 크다면, 모든 가능한 표본을 찾아 표본평균의 분포를 찾는 것은 불가능하지만 위 성질들은 ①모집단이 크거나 ②다른 분포형태를 가져도, 변함이 없다. 모평균 µ와 모분산 σ 2  를 갖는 모집단에서 추출한 랜덤표본을 X 1 , X 2 , ... , X n  이라 하면, 이들의 표본평균은 다음과 같다. $$ \overline{X} = \frac{1}{n}(X_{1}+X_{2}+...+X_{n}) $$  $$ E(\overline{X})=\mu, Var(\overline{X})=\frac{\sigma^{2}}{n} $$ 모집단이 무한모집단이고 표본크기가 충분히 크면 모집단이 어떠한 분포이더라도 표본평균의 분포는 근사적으로 정규분포를 따른다. 이를 중심극한정리 (central limit theorem) 라 한다.  중심극한정리에 따르면 모집단의 분포와 관계없이 표본크기가 충분이 크면 표본평균은 정규분포를 따른다.  $$ \overline{X} \sim N(\mu, \frac{\sigma^{2}}{n}) $$ 따라서 이항확률변수의 분포 역시, 표본크...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

McNemar Test (맥니마 검정법) - (2) 검정통계량

앞선 글에 이어서 대응쌍을 이루는 이항형 반응변수에 대한 주변동질성 검정법 을 더 살펴보고자 한다.  ❗ 대응쌍을 이루는 이항형 반응변수일 때, 주변동질성 검정법 의 귀무가설은 다음과 같다. $$ H_{0}: P(Y_{1}=1)=P(Y_{2}=1) $$ $$ H_{0}: \pi_{12}=\pi_{21} $$ 만약 귀무가설이 참이라면, n 12 와 n 21 가 비슷한 값을 가질 것이다.  n * = n 12 + n 21  가 두 칸의 도수합이라고 하면, 이렇게 두 개로 나뉘는 것은 binomial variate이기 때문이다. 귀무가설 H 0 : π 12 = π 21  하에서 n *  관측값이 n 12 와 n 21 가 될 확률은 1/2이다. 따라서 n 12 와 n 21 는 "성공횟수"와 "실패횟수"로, n *  번 시행일 때 성공의 확률이 1/2인 이항분포를 따른다. n * 이 10보다 클 때, 이 이항분포는 평균과 표준편차가 다음과 같은 정규분포와 비슷하게 된다.   $$ mean=\frac{1}{2}n^{*},  sd = \sqrt{n^{*}(\frac{1}{2})(\frac{1}{2})} $$ 따라서 표준화된 정규분포의 검정통계량은 다음과 같다. $$ z=\frac{n_{12}-(\frac{1}{2})n^{*}}{\sqrt{n^{*}(\frac{1}{2})(\frac{1}{2})}} = \frac{n_{12}-n_{21}}{\sqrt{n_{12}+n_{21}}} $$ 앞선 글에서 사용했던 표를 다시 가져와서 이 검정통계량에 대입해보면  Belt-Tightening Higher tax Agree Disagree Total Agree 227 132 359 Disagree 107 678 78...

McNemar Test (맥니마 검정법) - (1) 이항형 대응쌍에 대한 종속비율들의 비교

 두 표본이 있다.  한 표본의 개체와 다른 표본의 개체가 짝지어진 경우의 범주형 반응변수를 비교하고 싶을 때, 두 표본의 반응변수들을 대응쌍(matched pairs)이라 한다.  대응쌍의 예시로는 1) longitudinal 연구에서 동일한 대상을 시간의 흐름에 따라 반복적으로 관측하는 경우.  - ex. 식습관을 바꾸기 전의 체중과 바꾼 후의 체중 2) 같은 범주를 갖는 유사한 반응변수들이 두 개 이상 되는 설문조사의 경우.  - ex. 환경 개선을 위해 자발적으로 (1) 더 높은 세금을 지불할 의향이 있는지, (2) 생활수준 긴축을 받아들일 의향이 있는지.  Belt-Tightening Higher tax Agree Disagree Total Agree 227 132 359 Disagree 107 678 785 Total 334 810 1144 위 표에서 행의 marginal counts (359, 785)는 더 높은 세금을 지불할 의향이 있는가의 도수,  열의 marginal counts (334, 810)은 생활수준을 긴축할 의향이 있는가의 도수이다. ❗이 두 가지 질문에 "예"라고 응답할 확률은 어떻게 비교할 수 있는가? (1) 더 높은 세금을 지불할 의향이 있는가? "예"라고 대답한 표본 비율 = 359/1144=0.314 (2) 생활수준 긴축의 의향이 있는가? "예"라고 대답한 표본 비율 = 334/1144=0.292  ❓ 표본 오즈비 는? $$ \frac{227\times678}{132\times107}=10.9 $$ ➞ 두 질문에 대한 의견에는 강한 상관성이 존재한다. 질문 1에 "예"라고 응답할 확률은  $$ P(Y_{1}=...

GLM과 이탈도 - 모형검정 & 적합도검정

 GLM에서 이탈도 이탈도 Deviance란 무엇일까? GLM에서 이탈도 deviance는 선형회귀모형에서 잔차제곱합에 대응하는 값으로 표본과 적합된 모형 간 편차를 정량화 하는 값이다. GLM에서 이탈도로 할 수 있는 검정이 무엇이 있을까? 1. 모형의 유의성 검정 2. 모형의 적합도평가 GLM 모형을 적합하면 다음과 같은 결과가 나오는데, 이탈도 값은 2개가 나온다. ①Null deviance ②Residual deviance 이 두 개의 이탈도 값이다. ①Null deviance는 절편만 있는 모형에서의 이탈도 ②Residual deviance는 β  가 포함된 모형에서의 이탈도를 의미한다. 먼저 ① 모형의 유의성 검정 을 살펴보겠다. 유의성 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설:  β1  =  β2  = 0 (Null model) 대립가설: 적어도 하나는 0이 아니다. 이를 검정하기 위한 검정통계량 LR(=가능도비 검정통계량) 은 다음과 같다. LR = [Null deviance] - [Residual deviance] = 2(현재모형 하에서 로그가능도 함수의 최댓값 - 귀무가설 하에서 로그가능도 함수의 최댓값) 따라서 이를 위 적합 결과에 적용하면 $$ LR = 225.76 - 189.12 = 36.64 $$ $$ 1 - pchisq(36.64, df=2) = 1.1(10)^{-8} $$ 결론: 유의확률이 매우 작으므로 귀무가설을 기각하고 대립가설을 선택할 수 있다. 모형의 유의성 검정에 대해 살펴보았으니 이번에는 두 번째인 ② 모형의 적합도 검정 을 살펴보자. 적합도 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설: 현재의 단순한 모형 M (=모형M에 포함되지 않은 모수들은 모두 0이다.) 대립가설: 포화모형 saturated model 이를 검정하기 위한 검정통계량은 이탈도 통계량으로 다음과 같이 정의한다. 이탈도 통계량 = 2[포화모형 로그가능도함수의 최댓값 ...