Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

까먹기방지용 1: Windows Powershell 로 여러 파일 이름 한번에 바꾸기

 Linux를 사용하다보면 많이 사용하는 커맨드 중에 mv, rename 과 같이 파일 이름을 바꾸는 커맨드가 있다. 여기에 익숙해지면 윈도우를 사용할 때 클릭을 조금이라도 덜어주는 Linux의 커맨드가 그리워진다.   특히 규칙이 있는 파일의 이름을 한 번에 바꿀 때 Linux의 커맨드가 더욱 더 그리워진다. 위와 같이 끝이 "aa1" 로 끝나는 파일들이 있다. "aa1"을 "bb1"로 바꾸고자 할 때 Linux에서는  rename -aa1 -bb1 *.txt 위 명령어로 간단하게 바꿀 수 있다. windows에서도 파일의 개수가 위 처럼 4개 정도면 F2 키를 눌러 금방 파일의 이름을 바꿀 수 있지만, 파일의 개수가 1,000개 정도 된다면.. 뭐 가능은 하지만 손목이 아플 것이다. 이럴 때 windows에서도 커맨드를 이용해 파일 이름들을 바꿀 수 있다. 정말 정말 간단하니 아래와 같이 따라하면 된다. 1. 네모가 네 개 있는 윈도우 버튼을 눌러 " powershell "을 검색한다. 2. cd 명령어로 이름을 바꿀 파일들이 있는 위치로 이동한다.   바꿀 파일들이 "E:\공부\power" 에 있으므로,    cd E:\공부\power 를 입력하여 경로로 가면 된다. 3. ls 명령어로 파일들을 확인한다. 4.  dir | rename-item -NewName {$_.name -replace ' 바꾸기전 ', ' 바꿀이름 '} 의 형태로 명령어를 작성한다.   내가 바꾸고 싶은 부분은 aa1을 bb1로 바꾸는 것이므로, dir | rename-item -NewName {$_.name -replace ' aa1 ', ' bb1 '}  를 입력한다. 5. 다시 ls 명령어로 파일 이름들이 잘 바뀌었는지 확인한다. 잘 바뀌었음을 확인할 수 있다. 끝!

ANCOVA : 개념과 활용, 오용 (1)

 ANCOVA 는 Analysis of Covariance 의 abbreviation 으로 "ANOVA + Linear regression" 을 합친 개념이라고들 많이 배운다.  이번 주제로 ANCOVA를 정한 이유는 ANCOVA가 medical research에서 너무나도 광범위하게 misuse 되고 있기 때문이다. 이러한 사례를 모은 관련 논문들도 아주 많이 나왔지만 아직도 medical research 분야에서 잘못 사용되고 있는 경우가 매우 많다. 가장 많은 오류 중 한 가지는 confounding variable 일 수 있는 age와 같은 변수들이 교란변수임에도 단지 "보정 (control)"을 목적으로 적절한 변환이나 고려 없이 마구잡이(?)식으로 투입된다는 점이 있다. Miller & Chapman (2001) 의 "Misunderstanding Analysis of Covariance" 논문에는 다음과 같은 문장이 있다. ANCOVA was developed to improve the power of the test of the independent variable, not to " control " for anything. 많은 medical research에서 ANCOVA를 '보정 control' 을 목적으로 사용하는데, Miller & Chapman이 논문에서 언급했듯이, ANCOVA는 사실 어떤 변수를 보정하기 위한 목적으로 만들어진 것이 아니라 독립변수의 검정력을 향상시키고자 발전했다고 할 수 있다. 그럼 ANCOVA를 어떤 식으로 이해하면 좋을까? 이에 대해서 Miller & Chapman은 다음과 같이 저술하였다. It is helpful here to place ANOVA and ANCOVA in the more general framework of multiple regression and correlation, under...

Two-sample independent t-test

두 그룹의 모평균 비교를 위한 검정을 할 때 가장 많이 사용되는 방법 중 한 개인 2-sample independent t-test가 있다. 두 그룹 비교를 위해 가장 많이 사용되는 방법 중 한 검정법인데, 여러 까다로운(?) 가정들이 있다. Two-sample independent t-test 통계검정법 중에서도 모수적 검정법을 사용하려면 다음과 같은 가정들을 모두 만족해야 한다. 📌 Assumption 1 - 두 샘플 그룹은 서로 독립 일 것 📌 Assumption 2 - 두 샘플 그룹의 평균이 모두 정규성 을 만족할 것 - 모집단이 아님! " 샘플 그룹의 평균 "이 정규분포를 따라야 한다는 것 ⇨ 중심극한정리 📌 Assumption 3 - 두 샘플 그룹의 분산이 등분산 일 때와, 이분산 일때를 구별해야 함. ❓ 2 sample independent t-test 를 실시할 때, 위 가정을 어떻게 만족해야 하는지 예시를 통해 살펴보자. 📏 북미에 위치한 A 도시와 중앙아시아에 위치한 B 도시 주민들의 키 평균을 비교하고자 한다.  내 가설은 A 도시 주민과 B 도시 주민들의 키는 유의미하게 차이가 있다는 것이다. ⇨ 귀무가설과 대립가설은 다음과 같다. - Null hypothesis (귀무가설=영가설) :  A 지역 주민의 키 평균 = B 지역 주민의 키 평균 - Alternative hypothesis (대립가설) :  A 지역 주민의 키 평균 ≠ B 지역 주민의 키 평균 단, 대립가설은 나의 가설이 어떠냐에 따라 (ex. A>B, B>A) 달라질 수 있다. A 도시에는 100 만 명의 주민이 살고 있고, B 도시에는 50만 명의 주민이 살고 있다고 해보자. ✔️ A 도시 사람들의 키와 B 도시 사람들의 키는  독립 이다. ( Assumption1 만족) 위 가설을 검정하기 위해서 총 150 만 명에 해당하는 모든 주민의 키를 전수조사하는 것은 불가능에 가깝다.  따라서 우선 각 지역의 주민...

Which diagnostic test is better? 진단 검사 비교

 의학연구에서 진단력 은 매우매우 중요하다. 당장 코로나 진단키트를 구매할 때에도 실제 환자가 코로나 바이러스에 감염이 되었을 때, 키트가 정말 양성으로 진단하는 확률이 높은지를 따지게 된다. 특히 코로나 바이러스의 경우에는 전파력이 강하고, 진단키트 결과에 따라 격리여부가 결정되기 때문에 진단결과의 중요성은 매우 크다. (돈이 몇 백 억씩 왔다갔다 할 것이다.) ✅ 우리가 코로나 바이러스 진단키트를 사용할 때 따져야 할 점은 두 가지이다. ✔️ 1. 환자가 감염자일 때, 진단 검사 결과도 양성으로 나오는지?    (≈ 환자가 감염자가 아닐 때, 진단 검사 결과도 음성으로 나오는지) ✔️ 2. 검사 결과 양성일 때, 실제로 환자가 감염자인지?    (≈ 진단 결과가 음성일 때, 실제로 환자가 비감염자인지)  위 두 문장을 얼핏 보면 '그게 그거 아냐?' 라는 생각을 할 수도 있지만.. 수학적으로는 엄청난 차이 를 갖는다.   배경지식 없이 본다면 뭔가 1번 확률(환자가 감염자일 때, 검사 결과도 양성)이 높다면 2번 확률(검사 결과가 양성일 때, 실제로 환자가 감염자) 역시 높게 나올 것 같다.  그러나.. 유병률 (prevalence of disease)이 매우 낮다면 1번 확률이 높게 나오더라도 2번 확률은 매우 낮게 나올 수 있다. 왜 그런지 천천히 살펴보도록 하자.  앞선 포스트에서 민감도와 특이도를 설명했었는데, 유병률이 낮으면 민감도가 높더라도 양성예측도가 낮을 수 있음을 이해하기 위해서는 이를 먼저 짚고 갈 필요가 있다.  흔히 진단 검사의 정확도를 평가할 때, 통계학에서 사용하는 용어인 민감도, 특이도, 양성예측도, 음성예측도 로 위 케이스들을 정리해보자.  ❗ 민감도, 특이도, 양성예측도, 음성예측도 의 정의를 다시 한 번 살펴보면, ❔ 민감도 Sensitivity : 실제 양성일 때, 양성으로 예측할 확률 ❔ 특이도 Specifici...

수리통계학 - 베르누이 분포 (Bernoulli distribution)

Distribution 별 수리 통계학을 정리의 첫 번째는 Bernoulli distribution 이다. (출처는 wikipedia) 베르누이 분포는 동전의 앞, 뒤처럼 오직 두 가지 범주 만 가진 이산형 확률분포이다. 예를 들어, 시험을 봤을 때 60점 이상이면 합격, 미만이면 불합격이라 하자. - 60점 이상 = 합격 ⇨ 이를 1 이라 하고, 합격할 확률을 P(X=1) 로 표기할 수 있다. - 60점 미만 = 불합격 ⇨ 이를 0 이라 하고, 불합격할 확률을 P(X=0) 로 표기할 수 있다. ❗베르누이 분포의 확률질량함수 𝒇(𝒙) 는 다음과 같다. $$ f(x)=P(X=x)=p^{x}(1-p)^{1-x}, x=0,1 $$ ❗베르누이 분포를 따르는 확률변수의 기댓값 E(X) = p , 분산 Var(X) = p(1-p) 이다. ❗베르누이 분포의 적률생성함수 는 다음과 같다. $$ M(t)=E(e^{tX})=(1-p)+pe^{t} $$ 위 적률생성함수를 증명해보자. 베르누이분포는 이산형 확률분포이므로 베르누이분포를 따르는 확률변수 X의 적률생성함수는 다음과 같이 정의된다. $$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x)=\sum_{x=0}^{\infty}e^{tx}p^{x}(1-p)^{1-x} $$ 𝒙는 오로지 0과 1이므로, 이를 위에 대입하면, $$ M_{X}(t)=\sum_{x=0}^{\infty}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1} + e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$ 따라서 베르누이분포의 적률생성함수는 다음과 같다. $$ M_{X}(t)=(1-p)+pe^{t} $$ ✏이번에는 베르누이분포의 가능도함수 , 로그가능도함수 를 살펴본 후 최대가능도추정량 을 구해보도록 하겠다. ❗먼저 가능도함수 를 구해보자. $$ L(\theta)=\prod_{i=1}^{n}f(x_{i}|\the...

Brain Anatomy - Cortex

 Brain을 high level로 구분하면 Cerebrum, Cerebellum, Brain stem 으로 구성된다는 것을 지난 번 글에서 설명했었다. 이번 글에서는 Cortex에 대해서 살펴보는 것으로 정했다. What is Cortex?  "The cortex is the surface of the cerebrum." 우리 말로 피질이라 일컬어지는 cortex는 주름진 (folded) 모양을 가지며, hills 와 valleys 구간들이 있다.  (모든 그림의 출처는 Mayfieldclinic 이다.) Cortex는 specific layers로 arrange 되어 있는 16 billion neurons가 있다. 이 nerve cell bodies는 gray-brown 컬러로 말 그대로 gray mater이고, brain areas를 서로 연결해주는 역할을 하는 long nerve fibers(=axons)는 white matter로 불린다. gyrus는 튀어나온 부분, sulcus는 골짜기처럼 들어가 있는 부분이다. 조금 더 깊게 들어가보자. White matter tracts (pathways)는 cortex의 각 영역들을 연결한다. 그리하여 각 영역에서의 메시지들이 다른 부분으로 전달될 수 있고, brain의 깊은 부분까지 전달될 수 있다. 아래 그림을 살펴보자.  위 그림은 coronal view이다. 위 그림에 명시 된 각 부위들에 대해 살펴보자. 1. Hypothalamus 는 third ventricle의 floor에 위치해 있고, autonomic system을 컨트롤하는 마스터이다. 예를 들면, 배고픔, 목마름, 잠, 체온, 혈압, 감정, 호르몬 등이 있다. 2. Thalamus 는 뇌의 중앙(?)에 위치한 것처럼 보이는데, '괜히 중앙에 위치한게 아니네' 라는 ( 나만 이렇게 생각할수도 )  매우 매우 중요한 부위이다. Thalamus는 우리말로 시상인데, 이 부분은 cortex로 가는 모든...

Brain Anatomy

 Brain volumetry를 위해서 사용하는 Tool들은 여러 가지가 있는데, Freesurfer라는 툴은 가장 유명한 tool이다. Brain volumetry를 이용해서 abnormalities 등을 detect할 수 있는데, volumetry를 위해서 freesurfer 다루는 방법들을 배우고 있는데 Brain에 대한 기본적인 function과 anatomy를 모르면 분석에 굉장히 큰 한계점이 될 것이라 생각해서 틈틈히 Brain function과 anatomy를 다뤄보고자 한다. 모든 Image의 출처는 hopkinsmedicine 임을 밝혀 둔다. 일단 위 이미지는 high level에서 brain을 나눌 때의 모습으로, cerebrum, cerebellum, brainstem으로 나뉜다. ❓먼저 Cerebrum (우리 말로는 대뇌)에 대해 살펴보자. Cerebrum은 gray matter(바깥쪽)와 white matter(안쪽)로 구성되어 있고, 뇌의 가장 큰 파트를 차지한다. cerebrum은 우리 뇌의 가장 큰 파트를 차지하고 있을 정도로 참 많은, 살아가면서 필수적인 기능들을 가지고 있다. 움직임, 온도조절, 말하기, 판단, 생각하기, 문제해결, 감정, 학습 등등 그 기능은 수도 없이 많다. Gray matter와 White matter는 Central Nervous System의 regions인데, gray matter는 바깥쪽에 위치하고, white matter는 안쪽에 위치한다. 그러나 위 그림을 살펴보면 Spinal Cord에서는 바깥쪽이 White matter, 안쪽이 Gray matter이다. 1) Gray matter 는 neuron somas(the round central cell bodies)로 구성 되어 있고, information processing & interpreting을 담당한다. 2) White matter 는 주로 myelin에 덮여 있는 axons(the long stems that conn...

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

Gliomas: 2021 WHO new classification

 2021 WHO CNS tumor classification 2016년 개정판 이후로, 2021년 개정판 WHO CNS(Central Nervous System) tumors의 새로운 분류가 출판 되었다. 2016년 개정판도 genetics를 많이 반영했지만 2021년 개정판은 genetics를 이전판보다 훨씬 더 많이 반영한 것으로 보인다. 2021년 개정판에서는 Gliomas 분류를 크게 다섯 가지로 다음과 같이 나눴다. 1. Adult-type diffuse gliomas 2. Pediatric-type diffuse low-grade gliomas 3. Pediatric-type diffuse high-grade gliomas 4. Circumscribed astrocytic gliomas 5. Glioneuronal and neuronal tumors 2016년 판과 큰 차이점은 Glioblastoma, IDH-mutant가 삭제 되었다는 점이다. Glioblastoma는 CNS WHO grade 4 에 해당하는 악성 종양이다. 그런데 IDH gene이 mutant 인지 아니면 wild-type인지에 따라 예후가 많이 달랐고, IDH mutant인 경우에는 생존기간이 wild-type에 비해 대체적으로 더 길고 조직이 괴사되는 확률이 더 적다. 따라서 이들을 같은 grade 4 Glioblastoma로 묶을 수 있는가에 대한 의문이 지속되었다. 새로운 분류에 대해서는 차근차근 업데이트 하도록 하겠지만, 여기에서는 먼저 Adult-type diffuse gliomas 에 대해 살펴보도록 한다. Adult-type gliomas 에는 다음 세 종류의 종양이 속한다.  - Astrocytoma, IDH-mutant  ⇾  grade 2, 3, 4  - Oligodendroglioma, IDH-mutant, and 1p/19q-codeleted  ⇾  grade 2, 3  - Gliob...

통계 기초 : 표준오차 vs 표준편차 (standard error & standard deviation)

 통계를 살펴보면서 헷갈리는 것을 꼽으면 표준오차와 표준편차의 차이점을 들 수 있다. 표준편차와 표준오차에 대해 명확하게 나타낸 그림이 있어 가져왔다.  (출처는 그림 안에 있음) 표준편차와 표준오차는 한국어로 표현했을 때, 단 한 글자의 차이밖에 없기 때문에 나만 그럴 수 있겠지만.. 더 헷갈린다. 먼저 표준편차에 대해서 살펴보자. 예를 들어, 전국의 성인 남녀의 몸무게를 조사하기 위해 1,000명을 랜덤으로 추출하고자 한다.  여기에서 모집단은 전국의 성인 남녀이고, 표본은 랜덤으로 추출된 1,000명의 성인 남녀이다. 그럼 표본의 크기가 1,000인 성인 남녀의 몸무게의 평균을 62kg, 표준편차는 4.5kg라 하자. 𝓧¡ 를 표본조사를 통해 얻은 각 관측치라고 할 때, 표준편차의 제곱을 구하는 식은 다음과 같다. $$ S^2=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1} $$ 위 수식을 통해 표준편차란, 표본 조사로 얻은 각 관측값과 표본평균의 차이를 나타낸다고 할 수 있다.  모집단의 표준편차를 구할 때에는 분모에 n-1 대신 n으로 나누면 된다. 이번에는 표준오차를 살펴볼 차례이다. 바로 표준오차의 수식을 살펴보자. $$ SE=s/\sqrt{n} $$ 표준오차는 표준편차를 표본크기의 제곱근으로 나눈 값이다. 따라서 표본의 크기(n)가 커질수록 표준오차의 값은 작아진다. 그럼 표준오차는 무엇을 의미할까? 표준오차는 "표본평균들의 편차"를 의미한다.  원래 샘플링 오류를 줄이기 위해서 모집단에서 여러 번 표본추출을 하여 여러 표본 그룹이 있어야 하지만 현실적인 이유로 이는 불가능한 경우가 대다수다. 대부분의 경우는 모집단에서 한 번의 표본추출을 하고, 이 표본들이 모집단을 대표한다고 추정한다. 따라서 위의 예시와 같이 표본 1,000명이라는 표본의 크기 n과, 이 표본의 표준편차인 4.5kg를 이용하여 표준오차를 구하게 된다.  따라서 위 예시에...

일치도 통계와 paired t-test

Why using a paired t test to assess agreement is problematic? by Nikolaos Pandis https://doi.org/10.1016/j.ajodo.2021.07.001 Agreement 를 평가함에 있어 paired t-test를 사용하는 논문들이 몇 있다.  임상논문에서 의료기기가 측정한 것의 일치성, 혹은 의료행위자 A와 B가 측정한 것이 비슷한지를 측정하는 일들이 꽤 많은데, 여전히 많은 논문들에서 paired t-test에서 p>0.05 라는 통계 결과를 얻었을 때 '두 기기에서 측정한 수치는 일치한다.' 혹은 '의사A와 의사B가 측정한 수치는 일치한다.' 라는 결과를 내린다. 통계를 배울 때, "짝지어진 두 모집단의 차이를 보고 싶을 때는 paired t-test를 사용한다." 라고 많이들 배우는데, 아마 이렇게 배우기(?) 때문에 '그럼 paired t-test의 p-value가 0.05보다 크면 두 집단 간 차이가 없다는 것이겠네?'라고 많은 사람들의 생각이 이어지는듯하다. 그러나 내가 통계적으로 살펴보고 싶은 것이 "Agreement"라면 paired t-test를 사용하는 것은 잘못 되었다. 그 이유에 대해서는 다음 두 개의 시나리오를 이용해 설명해보도록 하겠다. 시나리오A와 시나리오B에는 시간 차이를 두고 같은 subject를 측정한 Time1 수치와 Time2 수치가 있다. 시나리오A와 시나리오B 모두 Time1과 Time2에서 측정된 수치의 평균은 10.45로 동일하다. ✔️먼저 시나리오A 를 살펴보자. 시나리오A에서 Time1과 Time2의 평균은 10.45로 동일하므로, 차이 d의 평균도 0이고 따라서 paired t-test를 진행하면 p-value가 1로 나올 것이다.  그럼 Time1과 Time2가 동일한 수치를 냈다고 결론지을 수 있는가? 시나리오A의 각 subject를 대상으로 시간 차이...

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

Statistics: reproducibility, reliability, repeatability in Radiomics

Koo, Terry K, and Mae Y Li. “A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research.”  Journal of chiropractic medicine  vol. 15,2 (2016): 155-63. doi:10.1016/j.jcm.2016.02.012 Taha, Abdel Aziz, and Allan Hanbury. “Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool.”  BMC medical imaging  vol. 15 29. 12 Aug. 2015, doi:10.1186/s12880-015-0068-x wikipedia 김장우, and 김종효. "3 차원 의료 영상 분할 평가 지표에 관한 고찰."  대한의학영상정보학회지  23.1 (2017): 14-20.

Radiomics: Feature selection 2

 앞서 Radiomics에서 많이 사용되고 있는 Feature selection 방법에 대해서 이야기 하였다. 이번에는 조금 더 세분화하여 설명해보도록 하겠다. 14 feature selection methods &  12 classification methods  in terms of predictive performance and stability. Methods

Radiomics: Feature selection

Radiomics에서 Feature를 선택하는 것은 핵심 중의 핵심이다.  열심히 영상을 다듬고 영상에 대한 여러 value를 뽑아 놓아도 feature selection을 잘못하면 그동안의 노력이 물거품이 되기 때문이다. Feature selection에는 여러 가지 방안들이 제시되어 왔는데 가장 많이 사용되는 방법들을 정리해보고자 한다. In omics experiments, one of the ultimate goals is the identification of features(biomarkers) that are different between treatment groups. One of the very common problems in omics data is that the sample size is small but huge number of features which can lead to over-fitting. What can be alternative methods to overcome this problem? The first paradigm  - LASSO : based on classification approaches and compares the least absolute shrinkage and selection operator.  - Ridge regression  - Elastic Net feature selection methods The second paradigm  - using a linear models framework : individual features are modeled separately ignoring the correlation structure among features.   Omics data analysing 순서      ⇨ original feature subsets ⇨ classification approach...

통계 기초 : the meaning of power (통계 파워의 의미) + 알파 + 베타

 통계를 처음 공부할 때, 마주하는 아주 중요한 개념들이 있다.  특히 통계적인 검정을 하고자 할 때, 기초적 검정이든 고급 검정이든 이번에 정리하고자 하는 개념들은 항상 사용되기 때문에 확실하게 알고 가는 것이 좋다. (항상 헷갈림) 📙 1. 통계학개론과 같은 교재에서 '검정(hypothesis test)' 파트에 도달하면 가장 먼저 나오는 단어(?) 중에 하나가 '알파α' 이다. 통계에서 알파α는 유의 수준(significance level) 이라는 개념을 갖고 있다. 유의 수준은 제 1종의 오류(=귀무가설이 사실인데 기각하는 오류)를 허용할 확률 이다. 유의 수준으로는 5%가 많이 사용되는데, 이는 제 1종의 오류를 허용할 확률이 5%라는 의미이다. 따라서 통계 검정시 유의 확률(p-value)이 유의 수준(significance level)인 5%보다 작으면 귀무가설을 기각하게 되는 것이다. 알파를 간단하게 정리하면 다음과 같이 나타낼 수 있다. 📌 알파 = 유의 수준 = 제 1종의 오류 = 위양성 α (alpha) = significance level = type 1 error = false positive 📘 2. 검정(hypothesis test) 파트에서 알파 다음으로 나오는 개념이 '베타β' 이다.  알파α가 제 1종의 오류를 나타냈다면, 베타β는 제 2종의 오류(=귀무가설이 거짓인데도 기각하지 않는 오류)를 나타낸다. 제 2종의 오류는 제 1종의 오류보다는 상대적으로 덜 치명적이긴 하지만, 여전히 오류라는 사실을 벗어날 수 없다. 베타를 간단하게 정리하면 다음과 같이 나타낼 수 있다. 📌 베타 = 제 2종의 오류 = 위음성 β (beta) = type 2 error = false negative 이를 그림으로 나타나면 다음과 같다. (출처는 scribbr) 📋통계에서 검정력(=Power) 이라 불리는 개념은 1에서 베타를 뺀 것이다. 즉, '검정력=Power' 는 1에서 제 2...

수리통계학 - 이산형 확률변수의 확률분포

 이산형 확률분포의 종류  - 베르누이분포, 이항분포, 이산형균등분포, 기하분포, 초기하분포, 음이항 분포, 포아송 분포 등 이산형 확률변수의 적률생성함수는 다음과 같은 형태로 표현된다. $$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x) $$ 1. 베르누이 분포 베르누이 시행의 확률변수 X의 분포는 X=1의 확률에 의해 정의된다. (X=0 or 1) P=P(X=1)=P(성공 ) 베르누이 시행의 확률질량함수 f(x)는 $$ f(x) = p^{x}(1-p)^{1-x}, x=0, 1 $$ 베르누이 분포의 기댓값과 분산은 다음과 같다. E(X)= p , Var(X)= p (1- p ) 베르누이분포의 적률생성함수는 다음과 같다. $$ M(t)=E(e^{tx})=(1-p)+pe^{t} $$ 적률생성함수 유도 과정은 아래와 같이 진행할 수 있다. $$ M(t)=E(e^{tX})=\sum_{x=0}^{1}e^{tx}f(x)=\sum_{x=0}^{1}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1}+e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$ 적률생성함수를 t에 대해 1차 미분한 후 t값에 0을 대입하면 평균을 도출할 수 있다. 베르누이 분포의 적률생성함수를 1차 미분하면  $$ M(t)=(1-p)+pe^{t}\Rightarrow M^{'}(t)=\frac{d}{dt}(1-p+pe^{t})=pe^{t} \Rightarrow M^{'}(0)=p $$ 2. 이항분포 베르누이 시행을 독립적으로 n번 반복하여 시행한 경우, 성공한 총 횟수를 X라 정의하면, 이 확률변수 X는 이항분포를 따른다. 이항분포의 확률질량함수 f(x)는 다음과 같다. $$ f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}, x= 0,1,2,...,n $$ 이항분포의 기댓값 E(X)= np , Var(X)= np (1- p ) 이다. 이항분포 ...

통계검정 : (1) 두 모비율의 추정과 가설검정

 지지율, 실업률, 불량률과 같이 모집단의 비율(p)을 추정하는 문제에 대해 생각해보자. 모집단이 두 개의 배반사건(찬성, 반대)으로 구성되어 있을 때, 찬성 모비율을 p, 반대 모비율을 (1-p)라 칭한다. $$ \widehat{p}=\frac{X}{n} , E(\widehat{p})=p, Var(\widehat{p})=\frac{p(1-p)}{n} $$  이때, 모집단에서 n개의 표본을 뽑으면 찬성자수 X는  표본수 n, 성공률이 p인  이항분포 B(n, p)를 따른다. $$ X \sim B(n, p) $$ E(X)=np, Var(X)=np(1-p) 이므로, $$ E(\frac{X}{n})=p, Var(\frac{X}{n})=\frac{1}{n^{2}}Var(X)=\frac{1}{n^{2}}np(1-p)=\frac{p(1-p)}{n} $$ 자세한 증명은  http://www.stat.yale.edu/Courses/1997-98/101/binom.htm  를 참고하면 된다. 표본크기가 충분히 크다면 표본비율은 정규분포를 따른다. $$ Z = \frac{\widehat{p}-p_{0}}{\sqrt{p_{0}(1-p_{0})/n}} , Z \sim N(0, 1) $$

통계 기초 : 확률 분포 - (2) 이항분포의 정규근사

 처음 통계를 접할 때 이해하기 어려웠던 것이 모평균, 표본평균, 표본평균의 평균 개념이었다. 지금 생각해보면 저 단어의 의미를 잘 살펴보기만 하면 크게 어렵지 않은 개념인데, 처음엔 다 어려워 보이듯이 표본평균과 표본평균의 평균이라는 개념이 잘 이해가 가지 않았다.  표본평균은 표본들의 평균이고, 왜 구하는지 이해가 갔는데 표본평균의 평균은 도대체 왜 구해야하는지 잘 이해가 가지 않았다. 표본평균은 중요한 성질들이 있다. 모집단을 임의로 정한 후, 시뮬레이션을 해보면, 1) 표본평균의 전체평균은 모평균과 같다. 2) 표본평균은 모평균의 비편향추정량(unbiased estimator)이다. 3) 표본평균은 모평균과 서로 다르지만 표본평균의 도수들은 모평균 주위에 많이 몰려 있다. 4) 모든 가능한 표본평균의 분포는 모평균을 중심으로 대칭형이다. 모집단이 매우 크다면, 모든 가능한 표본을 찾아 표본평균의 분포를 찾는 것은 불가능하지만 위 성질들은 ①모집단이 크거나 ②다른 분포형태를 가져도, 변함이 없다. 모평균 µ와 모분산 σ 2  를 갖는 모집단에서 추출한 랜덤표본을 X 1 , X 2 , ... , X n  이라 하면, 이들의 표본평균은 다음과 같다. $$ \overline{X} = \frac{1}{n}(X_{1}+X_{2}+...+X_{n}) $$  $$ E(\overline{X})=\mu, Var(\overline{X})=\frac{\sigma^{2}}{n} $$ 모집단이 무한모집단이고 표본크기가 충분히 크면 모집단이 어떠한 분포이더라도 표본평균의 분포는 근사적으로 정규분포를 따른다. 이를 중심극한정리 (central limit theorem) 라 한다.  중심극한정리에 따르면 모집단의 분포와 관계없이 표본크기가 충분이 크면 표본평균은 정규분포를 따른다.  $$ \overline{X} \sim N(\mu, \frac{\sigma^{2}}{n}) $$ 따라서 이항확률변수의 분포 역시, 표본크...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.