Radiomics: Feature selection 기본 콘텐츠로 건너뛰기

Radiomics: Feature selection

Radiomics에서 Feature를 선택하는 것은 핵심 중의 핵심이다. 

열심히 영상을 다듬고 영상에 대한 여러 value를 뽑아 놓아도 feature selection을 잘못하면 그동안의 노력이 물거품이 되기 때문이다.


Feature selection에는 여러 가지 방안들이 제시되어 왔는데 가장 많이 사용되는 방법들을 정리해보고자 한다.


In omics experiments, one of the ultimate goals is the identification of features(biomarkers) that are different between treatment groups.

One of the very common problems in omics data is that the sample size is small but huge number of features which can lead to over-fitting.


What can be alternative methods to overcome this problem?


The first paradigm

 - LASSO : based on classification approaches and compares the least absolute shrinkage and selection operator.

 - Ridge regression

 - Elastic Net feature selection methods


The second paradigm

 - using a linear models framework : individual features are modeled separately ignoring the correlation structure among features.

 

Omics data analysing 순서

    ⇨ original feature subsets ⇨ classification approach


Pre-screening 

1. t-test

2. Hardy-Weinberg equilibrium tests

3. non-statistical biological considerations

⇨ These methods help the efficient classification of samples into groups, rather than feature selection.



This paper uses the Type I and Type II errors to measure the accuracy(?)


Simulation 

 - 100 samples, 12 significant features out of 1,000 features comparing the performance of LASSO, Elastic Net, ridge regression, principal components regression, and other methods used for feature selection.

 👍 Elastic Net: showed the lowest mean squared error of prediction



biosignature for Lyme disease prediction 

- 202 treatment, 259 control group sample size. 

    • The number of features before pre-screening = 2,262

    • The number of features after pre-screening = 95

- LASSO, Classification Tree, Linear discriminant analysis  were applied.

    • LASSO: performed the best in ROC

    • Elastic Net: had lower MSEP than SVM, superior to stepwise selection.



LASSO, ridge regression & Elastic Net

 - penalised regression models.

 ① Ridge regression: closed form solution for the standard linear models with normal errors and results in shrunk regression coefficients (none of which is equal to zero)

    ⇨ Ridge regression can be used as a prediction tool, but not as a feature selector.

 LASSO: does not allow a closed form solution. it uses shrinkage to estimate which set of the regression coefficients have a value of zero and can therefore be eliminated.

    ⇨ One of the limitations of this method is that the number of variables that can be selected has to be smaller or equal to the sample size n.

    ⇨ LASSO often select only a single feature in a set of highly correlated features.

 ③ Elastic Net: addressed the drawbacks of the LASSO and ridge regression methods.

This method is a weighted combination of both LASSO and ridge regression penalties.



위 내용을 작성할 때 Kirpich, Alexander et al. “Variable selection in omics data: A practical evaluation of small sample sizes.” PloS one vol. 13,6 e0197910. 21 Jun. 2018 해당 논문을 참고하였음.





댓글

이 블로그의 인기 게시물

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

일치도 통계와 paired t-test

Why using a paired t test to assess agreement is problematic? by Nikolaos Pandis https://doi.org/10.1016/j.ajodo.2021.07.001 Agreement 를 평가함에 있어 paired t-test를 사용하는 논문들이 몇 있다.  임상논문에서 의료기기가 측정한 것의 일치성, 혹은 의료행위자 A와 B가 측정한 것이 비슷한지를 측정하는 일들이 꽤 많은데, 여전히 많은 논문들에서 paired t-test에서 p>0.05 라는 통계 결과를 얻었을 때 '두 기기에서 측정한 수치는 일치한다.' 혹은 '의사A와 의사B가 측정한 수치는 일치한다.' 라는 결과를 내린다. 통계를 배울 때, "짝지어진 두 모집단의 차이를 보고 싶을 때는 paired t-test를 사용한다." 라고 많이들 배우는데, 아마 이렇게 배우기(?) 때문에 '그럼 paired t-test의 p-value가 0.05보다 크면 두 집단 간 차이가 없다는 것이겠네?'라고 많은 사람들의 생각이 이어지는듯하다. 그러나 내가 통계적으로 살펴보고 싶은 것이 "Agreement"라면 paired t-test를 사용하는 것은 잘못 되었다. 그 이유에 대해서는 다음 두 개의 시나리오를 이용해 설명해보도록 하겠다. 시나리오A와 시나리오B에는 시간 차이를 두고 같은 subject를 측정한 Time1 수치와 Time2 수치가 있다. 시나리오A와 시나리오B 모두 Time1과 Time2에서 측정된 수치의 평균은 10.45로 동일하다. ✔️먼저 시나리오A 를 살펴보자. 시나리오A에서 Time1과 Time2의 평균은 10.45로 동일하므로, 차이 d의 평균도 0이고 따라서 paired t-test를 진행하면 p-value가 1로 나올 것이다.  그럼 Time1과 Time2가 동일한 수치를 냈다고 결론지을 수 있는가? 시나리오A의 각 subject를 대상으로 시간 차이...

통계검정 : (1) 두 모비율의 추정과 가설검정

 지지율, 실업률, 불량률과 같이 모집단의 비율(p)을 추정하는 문제에 대해 생각해보자. 모집단이 두 개의 배반사건(찬성, 반대)으로 구성되어 있을 때, 찬성 모비율을 p, 반대 모비율을 (1-p)라 칭한다. $$ \widehat{p}=\frac{X}{n} , E(\widehat{p})=p, Var(\widehat{p})=\frac{p(1-p)}{n} $$  이때, 모집단에서 n개의 표본을 뽑으면 찬성자수 X는  표본수 n, 성공률이 p인  이항분포 B(n, p)를 따른다. $$ X \sim B(n, p) $$ E(X)=np, Var(X)=np(1-p) 이므로, $$ E(\frac{X}{n})=p, Var(\frac{X}{n})=\frac{1}{n^{2}}Var(X)=\frac{1}{n^{2}}np(1-p)=\frac{p(1-p)}{n} $$ 자세한 증명은  http://www.stat.yale.edu/Courses/1997-98/101/binom.htm  를 참고하면 된다. 표본크기가 충분히 크다면 표본비율은 정규분포를 따른다. $$ Z = \frac{\widehat{p}-p_{0}}{\sqrt{p_{0}(1-p_{0})/n}} , Z \sim N(0, 1) $$