Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

7월, 2022의 게시물 표시

Two-sample independent t-test

두 그룹의 모평균 비교를 위한 검정을 할 때 가장 많이 사용되는 방법 중 한 개인 2-sample independent t-test가 있다. 두 그룹 비교를 위해 가장 많이 사용되는 방법 중 한 검정법인데, 여러 까다로운(?) 가정들이 있다. Two-sample independent t-test 통계검정법 중에서도 모수적 검정법을 사용하려면 다음과 같은 가정들을 모두 만족해야 한다. 📌 Assumption 1 - 두 샘플 그룹은 서로 독립 일 것 📌 Assumption 2 - 두 샘플 그룹의 평균이 모두 정규성 을 만족할 것 - 모집단이 아님! " 샘플 그룹의 평균 "이 정규분포를 따라야 한다는 것 ⇨ 중심극한정리 📌 Assumption 3 - 두 샘플 그룹의 분산이 등분산 일 때와, 이분산 일때를 구별해야 함. ❓ 2 sample independent t-test 를 실시할 때, 위 가정을 어떻게 만족해야 하는지 예시를 통해 살펴보자. 📏 북미에 위치한 A 도시와 중앙아시아에 위치한 B 도시 주민들의 키 평균을 비교하고자 한다.  내 가설은 A 도시 주민과 B 도시 주민들의 키는 유의미하게 차이가 있다는 것이다. ⇨ 귀무가설과 대립가설은 다음과 같다. - Null hypothesis (귀무가설=영가설) :  A 지역 주민의 키 평균 = B 지역 주민의 키 평균 - Alternative hypothesis (대립가설) :  A 지역 주민의 키 평균 ≠ B 지역 주민의 키 평균 단, 대립가설은 나의 가설이 어떠냐에 따라 (ex. A>B, B>A) 달라질 수 있다. A 도시에는 100 만 명의 주민이 살고 있고, B 도시에는 50만 명의 주민이 살고 있다고 해보자. ✔️ A 도시 사람들의 키와 B 도시 사람들의 키는  독립 이다. ( Assumption1 만족) 위 가설을 검정하기 위해서 총 150 만 명에 해당하는 모든 주민의 키를 전수조사하는 것은 불가능에 가깝다.  따라서 우선 각 지역의 주민...

Which diagnostic test is better? 진단 검사 비교

 의학연구에서 진단력 은 매우매우 중요하다. 당장 코로나 진단키트를 구매할 때에도 실제 환자가 코로나 바이러스에 감염이 되었을 때, 키트가 정말 양성으로 진단하는 확률이 높은지를 따지게 된다. 특히 코로나 바이러스의 경우에는 전파력이 강하고, 진단키트 결과에 따라 격리여부가 결정되기 때문에 진단결과의 중요성은 매우 크다. (돈이 몇 백 억씩 왔다갔다 할 것이다.) ✅ 우리가 코로나 바이러스 진단키트를 사용할 때 따져야 할 점은 두 가지이다. ✔️ 1. 환자가 감염자일 때, 진단 검사 결과도 양성으로 나오는지?    (≈ 환자가 감염자가 아닐 때, 진단 검사 결과도 음성으로 나오는지) ✔️ 2. 검사 결과 양성일 때, 실제로 환자가 감염자인지?    (≈ 진단 결과가 음성일 때, 실제로 환자가 비감염자인지)  위 두 문장을 얼핏 보면 '그게 그거 아냐?' 라는 생각을 할 수도 있지만.. 수학적으로는 엄청난 차이 를 갖는다.   배경지식 없이 본다면 뭔가 1번 확률(환자가 감염자일 때, 검사 결과도 양성)이 높다면 2번 확률(검사 결과가 양성일 때, 실제로 환자가 감염자) 역시 높게 나올 것 같다.  그러나.. 유병률 (prevalence of disease)이 매우 낮다면 1번 확률이 높게 나오더라도 2번 확률은 매우 낮게 나올 수 있다. 왜 그런지 천천히 살펴보도록 하자.  앞선 포스트에서 민감도와 특이도를 설명했었는데, 유병률이 낮으면 민감도가 높더라도 양성예측도가 낮을 수 있음을 이해하기 위해서는 이를 먼저 짚고 갈 필요가 있다.  흔히 진단 검사의 정확도를 평가할 때, 통계학에서 사용하는 용어인 민감도, 특이도, 양성예측도, 음성예측도 로 위 케이스들을 정리해보자.  ❗ 민감도, 특이도, 양성예측도, 음성예측도 의 정의를 다시 한 번 살펴보면, ❔ 민감도 Sensitivity : 실제 양성일 때, 양성으로 예측할 확률 ❔ 특이도 Specifici...