Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

4월, 2022의 게시물 표시

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

Statistics: reproducibility, reliability, repeatability in Radiomics

Koo, Terry K, and Mae Y Li. “A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research.”  Journal of chiropractic medicine  vol. 15,2 (2016): 155-63. doi:10.1016/j.jcm.2016.02.012 Taha, Abdel Aziz, and Allan Hanbury. “Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool.”  BMC medical imaging  vol. 15 29. 12 Aug. 2015, doi:10.1186/s12880-015-0068-x wikipedia 김장우, and 김종효. "3 차원 의료 영상 분할 평가 지표에 관한 고찰."  대한의학영상정보학회지  23.1 (2017): 14-20.

Radiomics: Feature selection 2

 앞서 Radiomics에서 많이 사용되고 있는 Feature selection 방법에 대해서 이야기 하였다. 이번에는 조금 더 세분화하여 설명해보도록 하겠다. 14 feature selection methods &  12 classification methods  in terms of predictive performance and stability. Methods

Radiomics: Feature selection

Radiomics에서 Feature를 선택하는 것은 핵심 중의 핵심이다.  열심히 영상을 다듬고 영상에 대한 여러 value를 뽑아 놓아도 feature selection을 잘못하면 그동안의 노력이 물거품이 되기 때문이다. Feature selection에는 여러 가지 방안들이 제시되어 왔는데 가장 많이 사용되는 방법들을 정리해보고자 한다. In omics experiments, one of the ultimate goals is the identification of features(biomarkers) that are different between treatment groups. One of the very common problems in omics data is that the sample size is small but huge number of features which can lead to over-fitting. What can be alternative methods to overcome this problem? The first paradigm  - LASSO : based on classification approaches and compares the least absolute shrinkage and selection operator.  - Ridge regression  - Elastic Net feature selection methods The second paradigm  - using a linear models framework : individual features are modeled separately ignoring the correlation structure among features.   Omics data analysing 순서      ⇨ original feature subsets ⇨ classification approach...

통계 기초 : the meaning of power (통계 파워의 의미) + 알파 + 베타

 통계를 처음 공부할 때, 마주하는 아주 중요한 개념들이 있다.  특히 통계적인 검정을 하고자 할 때, 기초적 검정이든 고급 검정이든 이번에 정리하고자 하는 개념들은 항상 사용되기 때문에 확실하게 알고 가는 것이 좋다. (항상 헷갈림) 📙 1. 통계학개론과 같은 교재에서 '검정(hypothesis test)' 파트에 도달하면 가장 먼저 나오는 단어(?) 중에 하나가 '알파α' 이다. 통계에서 알파α는 유의 수준(significance level) 이라는 개념을 갖고 있다. 유의 수준은 제 1종의 오류(=귀무가설이 사실인데 기각하는 오류)를 허용할 확률 이다. 유의 수준으로는 5%가 많이 사용되는데, 이는 제 1종의 오류를 허용할 확률이 5%라는 의미이다. 따라서 통계 검정시 유의 확률(p-value)이 유의 수준(significance level)인 5%보다 작으면 귀무가설을 기각하게 되는 것이다. 알파를 간단하게 정리하면 다음과 같이 나타낼 수 있다. 📌 알파 = 유의 수준 = 제 1종의 오류 = 위양성 α (alpha) = significance level = type 1 error = false positive 📘 2. 검정(hypothesis test) 파트에서 알파 다음으로 나오는 개념이 '베타β' 이다.  알파α가 제 1종의 오류를 나타냈다면, 베타β는 제 2종의 오류(=귀무가설이 거짓인데도 기각하지 않는 오류)를 나타낸다. 제 2종의 오류는 제 1종의 오류보다는 상대적으로 덜 치명적이긴 하지만, 여전히 오류라는 사실을 벗어날 수 없다. 베타를 간단하게 정리하면 다음과 같이 나타낼 수 있다. 📌 베타 = 제 2종의 오류 = 위음성 β (beta) = type 2 error = false negative 이를 그림으로 나타나면 다음과 같다. (출처는 scribbr) 📋통계에서 검정력(=Power) 이라 불리는 개념은 1에서 베타를 뺀 것이다. 즉, '검정력=Power' 는 1에서 제 2...