Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

Gliomas: 2021 WHO new classification

 2021 WHO CNS tumor classification 2016년 개정판 이후로, 2021년 개정판 WHO CNS(Central Nervous System) tumors의 새로운 분류가 출판 되었다. 2016년 개정판도 genetics를 많이 반영했지만 2021년 개정판은 genetics를 이전판보다 훨씬 더 많이 반영한 것으로 보인다. 2021년 개정판에서는 Gliomas 분류를 크게 다섯 가지로 다음과 같이 나눴다. 1. Adult-type diffuse gliomas 2. Pediatric-type diffuse low-grade gliomas 3. Pediatric-type diffuse high-grade gliomas 4. Circumscribed astrocytic gliomas 5. Glioneuronal and neuronal tumors 2016년 판과 큰 차이점은 Glioblastoma, IDH-mutant가 삭제 되었다는 점이다. Glioblastoma는 CNS WHO grade 4 에 해당하는 악성 종양이다. 그런데 IDH gene이 mutant 인지 아니면 wild-type인지에 따라 예후가 많이 달랐고, IDH mutant인 경우에는 생존기간이 wild-type에 비해 대체적으로 더 길고 조직이 괴사되는 확률이 더 적다. 따라서 이들을 같은 grade 4 Glioblastoma로 묶을 수 있는가에 대한 의문이 지속되었다. 새로운 분류에 대해서는 차근차근 업데이트 하도록 하겠지만, 여기에서는 먼저 Adult-type diffuse gliomas 에 대해 살펴보도록 한다. Adult-type gliomas 에는 다음 세 종류의 종양이 속한다.  - Astrocytoma, IDH-mutant  ⇾  grade 2, 3, 4  - Oligodendroglioma, IDH-mutant, and 1p/19q-codeleted  ⇾  grade 2, 3  - Gliob...

통계 기초 : 표준오차 vs 표준편차 (standard error & standard deviation)

 통계를 살펴보면서 헷갈리는 것을 꼽으면 표준오차와 표준편차의 차이점을 들 수 있다. 표준편차와 표준오차에 대해 명확하게 나타낸 그림이 있어 가져왔다.  (출처는 그림 안에 있음) 표준편차와 표준오차는 한국어로 표현했을 때, 단 한 글자의 차이밖에 없기 때문에 나만 그럴 수 있겠지만.. 더 헷갈린다. 먼저 표준편차에 대해서 살펴보자. 예를 들어, 전국의 성인 남녀의 몸무게를 조사하기 위해 1,000명을 랜덤으로 추출하고자 한다.  여기에서 모집단은 전국의 성인 남녀이고, 표본은 랜덤으로 추출된 1,000명의 성인 남녀이다. 그럼 표본의 크기가 1,000인 성인 남녀의 몸무게의 평균을 62kg, 표준편차는 4.5kg라 하자. 𝓧¡ 를 표본조사를 통해 얻은 각 관측치라고 할 때, 표준편차의 제곱을 구하는 식은 다음과 같다. $$ S^2=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1} $$ 위 수식을 통해 표준편차란, 표본 조사로 얻은 각 관측값과 표본평균의 차이를 나타낸다고 할 수 있다.  모집단의 표준편차를 구할 때에는 분모에 n-1 대신 n으로 나누면 된다. 이번에는 표준오차를 살펴볼 차례이다. 바로 표준오차의 수식을 살펴보자. $$ SE=s/\sqrt{n} $$ 표준오차는 표준편차를 표본크기의 제곱근으로 나눈 값이다. 따라서 표본의 크기(n)가 커질수록 표준오차의 값은 작아진다. 그럼 표준오차는 무엇을 의미할까? 표준오차는 "표본평균들의 편차"를 의미한다.  원래 샘플링 오류를 줄이기 위해서 모집단에서 여러 번 표본추출을 하여 여러 표본 그룹이 있어야 하지만 현실적인 이유로 이는 불가능한 경우가 대다수다. 대부분의 경우는 모집단에서 한 번의 표본추출을 하고, 이 표본들이 모집단을 대표한다고 추정한다. 따라서 위의 예시와 같이 표본 1,000명이라는 표본의 크기 n과, 이 표본의 표준편차인 4.5kg를 이용하여 표준오차를 구하게 된다.  따라서 위 예시에...

일치도 통계와 paired t-test

Why using a paired t test to assess agreement is problematic? by Nikolaos Pandis https://doi.org/10.1016/j.ajodo.2021.07.001 Agreement 를 평가함에 있어 paired t-test를 사용하는 논문들이 몇 있다.  임상논문에서 의료기기가 측정한 것의 일치성, 혹은 의료행위자 A와 B가 측정한 것이 비슷한지를 측정하는 일들이 꽤 많은데, 여전히 많은 논문들에서 paired t-test에서 p>0.05 라는 통계 결과를 얻었을 때 '두 기기에서 측정한 수치는 일치한다.' 혹은 '의사A와 의사B가 측정한 수치는 일치한다.' 라는 결과를 내린다. 통계를 배울 때, "짝지어진 두 모집단의 차이를 보고 싶을 때는 paired t-test를 사용한다." 라고 많이들 배우는데, 아마 이렇게 배우기(?) 때문에 '그럼 paired t-test의 p-value가 0.05보다 크면 두 집단 간 차이가 없다는 것이겠네?'라고 많은 사람들의 생각이 이어지는듯하다. 그러나 내가 통계적으로 살펴보고 싶은 것이 "Agreement"라면 paired t-test를 사용하는 것은 잘못 되었다. 그 이유에 대해서는 다음 두 개의 시나리오를 이용해 설명해보도록 하겠다. 시나리오A와 시나리오B에는 시간 차이를 두고 같은 subject를 측정한 Time1 수치와 Time2 수치가 있다. 시나리오A와 시나리오B 모두 Time1과 Time2에서 측정된 수치의 평균은 10.45로 동일하다. ✔️먼저 시나리오A 를 살펴보자. 시나리오A에서 Time1과 Time2의 평균은 10.45로 동일하므로, 차이 d의 평균도 0이고 따라서 paired t-test를 진행하면 p-value가 1로 나올 것이다.  그럼 Time1과 Time2가 동일한 수치를 냈다고 결론지을 수 있는가? 시나리오A의 각 subject를 대상으로 시간 차이...

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

Statistics: reproducibility, reliability, repeatability in Radiomics

Koo, Terry K, and Mae Y Li. “A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research.”  Journal of chiropractic medicine  vol. 15,2 (2016): 155-63. doi:10.1016/j.jcm.2016.02.012 Taha, Abdel Aziz, and Allan Hanbury. “Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool.”  BMC medical imaging  vol. 15 29. 12 Aug. 2015, doi:10.1186/s12880-015-0068-x wikipedia 김장우, and 김종효. "3 차원 의료 영상 분할 평가 지표에 관한 고찰."  대한의학영상정보학회지  23.1 (2017): 14-20.

Radiomics: Feature selection 2

 앞서 Radiomics에서 많이 사용되고 있는 Feature selection 방법에 대해서 이야기 하였다. 이번에는 조금 더 세분화하여 설명해보도록 하겠다. 14 feature selection methods &  12 classification methods  in terms of predictive performance and stability. Methods