Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

라벨이 statistics인 게시물 표시

수리통계학 - 베르누이 분포 (Bernoulli distribution)

Distribution 별 수리 통계학을 정리의 첫 번째는 Bernoulli distribution 이다. (출처는 wikipedia) 베르누이 분포는 동전의 앞, 뒤처럼 오직 두 가지 범주 만 가진 이산형 확률분포이다. 예를 들어, 시험을 봤을 때 60점 이상이면 합격, 미만이면 불합격이라 하자. - 60점 이상 = 합격 ⇨ 이를 1 이라 하고, 합격할 확률을 P(X=1) 로 표기할 수 있다. - 60점 미만 = 불합격 ⇨ 이를 0 이라 하고, 불합격할 확률을 P(X=0) 로 표기할 수 있다. ❗베르누이 분포의 확률질량함수 𝒇(𝒙) 는 다음과 같다. $$ f(x)=P(X=x)=p^{x}(1-p)^{1-x}, x=0,1 $$ ❗베르누이 분포를 따르는 확률변수의 기댓값 E(X) = p , 분산 Var(X) = p(1-p) 이다. ❗베르누이 분포의 적률생성함수 는 다음과 같다. $$ M(t)=E(e^{tX})=(1-p)+pe^{t} $$ 위 적률생성함수를 증명해보자. 베르누이분포는 이산형 확률분포이므로 베르누이분포를 따르는 확률변수 X의 적률생성함수는 다음과 같이 정의된다. $$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x)=\sum_{x=0}^{\infty}e^{tx}p^{x}(1-p)^{1-x} $$ 𝒙는 오로지 0과 1이므로, 이를 위에 대입하면, $$ M_{X}(t)=\sum_{x=0}^{\infty}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1} + e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$ 따라서 베르누이분포의 적률생성함수는 다음과 같다. $$ M_{X}(t)=(1-p)+pe^{t} $$ ✏이번에는 베르누이분포의 가능도함수 , 로그가능도함수 를 살펴본 후 최대가능도추정량 을 구해보도록 하겠다. ❗먼저 가능도함수 를 구해보자. $$ L(\theta)=\prod_{i=1}^{n}f(x_{i}|\the...

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

통계 기초 : 표준오차 vs 표준편차 (standard error & standard deviation)

 통계를 살펴보면서 헷갈리는 것을 꼽으면 표준오차와 표준편차의 차이점을 들 수 있다. 표준편차와 표준오차에 대해 명확하게 나타낸 그림이 있어 가져왔다.  (출처는 그림 안에 있음) 표준편차와 표준오차는 한국어로 표현했을 때, 단 한 글자의 차이밖에 없기 때문에 나만 그럴 수 있겠지만.. 더 헷갈린다. 먼저 표준편차에 대해서 살펴보자. 예를 들어, 전국의 성인 남녀의 몸무게를 조사하기 위해 1,000명을 랜덤으로 추출하고자 한다.  여기에서 모집단은 전국의 성인 남녀이고, 표본은 랜덤으로 추출된 1,000명의 성인 남녀이다. 그럼 표본의 크기가 1,000인 성인 남녀의 몸무게의 평균을 62kg, 표준편차는 4.5kg라 하자. 𝓧¡ 를 표본조사를 통해 얻은 각 관측치라고 할 때, 표준편차의 제곱을 구하는 식은 다음과 같다. $$ S^2=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1} $$ 위 수식을 통해 표준편차란, 표본 조사로 얻은 각 관측값과 표본평균의 차이를 나타낸다고 할 수 있다.  모집단의 표준편차를 구할 때에는 분모에 n-1 대신 n으로 나누면 된다. 이번에는 표준오차를 살펴볼 차례이다. 바로 표준오차의 수식을 살펴보자. $$ SE=s/\sqrt{n} $$ 표준오차는 표준편차를 표본크기의 제곱근으로 나눈 값이다. 따라서 표본의 크기(n)가 커질수록 표준오차의 값은 작아진다. 그럼 표준오차는 무엇을 의미할까? 표준오차는 "표본평균들의 편차"를 의미한다.  원래 샘플링 오류를 줄이기 위해서 모집단에서 여러 번 표본추출을 하여 여러 표본 그룹이 있어야 하지만 현실적인 이유로 이는 불가능한 경우가 대다수다. 대부분의 경우는 모집단에서 한 번의 표본추출을 하고, 이 표본들이 모집단을 대표한다고 추정한다. 따라서 위의 예시와 같이 표본 1,000명이라는 표본의 크기 n과, 이 표본의 표준편차인 4.5kg를 이용하여 표준오차를 구하게 된다.  따라서 위 예시에...

Statistics: reproducibility, reliability, repeatability in Radiomics

Koo, Terry K, and Mae Y Li. “A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research.”  Journal of chiropractic medicine  vol. 15,2 (2016): 155-63. doi:10.1016/j.jcm.2016.02.012 Taha, Abdel Aziz, and Allan Hanbury. “Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool.”  BMC medical imaging  vol. 15 29. 12 Aug. 2015, doi:10.1186/s12880-015-0068-x wikipedia 김장우, and 김종효. "3 차원 의료 영상 분할 평가 지표에 관한 고찰."  대한의학영상정보학회지  23.1 (2017): 14-20.

통계 기초 : the meaning of power (통계 파워의 의미) + 알파 + 베타

 통계를 처음 공부할 때, 마주하는 아주 중요한 개념들이 있다.  특히 통계적인 검정을 하고자 할 때, 기초적 검정이든 고급 검정이든 이번에 정리하고자 하는 개념들은 항상 사용되기 때문에 확실하게 알고 가는 것이 좋다. (항상 헷갈림) 📙 1. 통계학개론과 같은 교재에서 '검정(hypothesis test)' 파트에 도달하면 가장 먼저 나오는 단어(?) 중에 하나가 '알파α' 이다. 통계에서 알파α는 유의 수준(significance level) 이라는 개념을 갖고 있다. 유의 수준은 제 1종의 오류(=귀무가설이 사실인데 기각하는 오류)를 허용할 확률 이다. 유의 수준으로는 5%가 많이 사용되는데, 이는 제 1종의 오류를 허용할 확률이 5%라는 의미이다. 따라서 통계 검정시 유의 확률(p-value)이 유의 수준(significance level)인 5%보다 작으면 귀무가설을 기각하게 되는 것이다. 알파를 간단하게 정리하면 다음과 같이 나타낼 수 있다. 📌 알파 = 유의 수준 = 제 1종의 오류 = 위양성 α (alpha) = significance level = type 1 error = false positive 📘 2. 검정(hypothesis test) 파트에서 알파 다음으로 나오는 개념이 '베타β' 이다.  알파α가 제 1종의 오류를 나타냈다면, 베타β는 제 2종의 오류(=귀무가설이 거짓인데도 기각하지 않는 오류)를 나타낸다. 제 2종의 오류는 제 1종의 오류보다는 상대적으로 덜 치명적이긴 하지만, 여전히 오류라는 사실을 벗어날 수 없다. 베타를 간단하게 정리하면 다음과 같이 나타낼 수 있다. 📌 베타 = 제 2종의 오류 = 위음성 β (beta) = type 2 error = false negative 이를 그림으로 나타나면 다음과 같다. (출처는 scribbr) 📋통계에서 검정력(=Power) 이라 불리는 개념은 1에서 베타를 뺀 것이다. 즉, '검정력=Power' 는 1에서 제 2...

Odds Ratio and Relative Risk ; 오즈비와 상대위험도

  Odds Ratio 는 임상에서 매우 많이 사용되는 개념이다. 그러나 'Odds' 라는 개념이 직관적으로 잘 와닿지 않기 때문에 흔히 오용되기도 하는 개념이라 가장 먼저 잡고가야 할 주제로 삼았다.   오즈비는 범주형 자료에서 사용되는데, 오즈비를 보면서 가장 많이 접하게 될  2X2 분할표는 다음과 같이 생겼다.   Event Normal Total Exposed A B A + B Non-exposed C D C + D 흔히 하는 실수가 오즈비(Odds Ratio)를 해석할 때, 상대위험도(Relative risk)를 해석하듯이 한다는 점이다. 따라서 오즈비와 상대위험도의 각 개념에 대해서 살펴보고 넘어가도록 하자.   ❗Odds Ratio와 Relative Risk의 공통점 : 상대적인 비율 을 나타낸다. Public health / Medical 에서 Odds Ratio or Relative Risk를 사용하는 이유 - 어떤 조건에서 더 위험한지를 수치적으로 나타내기 위해서 사용 한다. 예를 들면, "흡연(조건)"을 하는 사람은 비흡연자에 비해 "폐암(Event)" 발생에 있어서 몇 배가 더 위험한가? 와 같은 질문에 대한 해답으로 많이 사용된다.   ✅위와 같은 2X2 이차원 분할표에서 Odds Ratio (오즈비) 의 수식적 정의 는 다음과 같다. P1 = A/(A+B) ; P2 = C/(C+D) Odds1 = P1/(1-P1) ; Odds2 = P2/(1-P2) Odds Ratio = Odds1/Odds2 = A*D/B*C ✅ 한편 2X2 분할표에서 Relative Risk (상대위험도) 의 수식적 정의 는 ...