Radiomics: Feature selection 2 기본 콘텐츠로 건너뛰기

Radiomics: Feature selection 2

 앞서 Radiomics에서 많이 사용되고 있는 Feature selection 방법에 대해서 이야기 하였다. 이번에는 조금 더 세분화하여 설명해보도록 하겠다.

14 feature selection methods & 12 classification methods in terms of predictive performance and stability.


Methods

❗ Radiomic Features

A total of 440 radiomic features were used and divided into 4 feature groups.

1) tumor intensity

    - intensity of histogram

2) shape

    - 3D geometric properties of the tumor

3) texture

    - GLCM: gray level co-occurrence matrices

    - GLRLM: gray level run length matrices

     ⇨ quantified the intra-tumor heterogeneity

4) wavelet features

    - transformed domain representations of the intensity and textural features.


❗ Datasets

    • survival time > 2 years ⇨ 1

    • survival time < 2 years ⇨ 0

   - 310 lung cancer patients in training cohort, and 154 patients in validation cohort.

   - All features were normalised using Z-score normalisation.


❗ Feature Selection Methods

 - 14 feature selection methods based on filter approaches were used.

 - 선정기준: simplicity, computational efficiency, popularity in literature

  • Fisher score
  • Relief
  • T-score
  • Chi-square
  • Wilcoxon
  • Gini index
  • Mutual information maximisation
  • Mutual information feature selection
  • Minimum redundancy maximum relevance
  • Conditional informax feature extraction
  • Joint mutual information
  • Conditional mutual information maximisation
  • Interaction capping
  • Double input symmetric relevance


❗ Classifiers

 - 12 machine learning based classification methods were considered.

 - supervised learning task로 training set, validation set으로 나눔

 - 10 fold cross validation was used

 - predictive performance evaluation: AUC

  • Bagging
  • Bayesian
  • Boosting
  • Decision trees
  • Discriminant analysis
  • Generalised linear models
  • Multiple adaptive regression splines
  • Nearest neighbours
  • Neural networks
  • Partial least square and principle component regression
  • Random forests
  • Support vector machines




Analysis

Predictive Performance of Feature Selection Methods

    - feature의 개수를 (n = 5, 10, 15, 20, ..., 50) 점차 늘려가며 AUC 값들의 중앙값 계산


Results

  a total of 440 radiomic features were extracted from the segmented tumor regions

Predictive performance of feature selection and classification methods

• AUC was used for assessing predictive performance of different feature selection and classification methods.

Classification

   👍 Random Forest showed the highest predictive performance as a classifier.

      (AUC = 0.66 ± 0.03)

   👎 Decision Tree had the lowest predictive performance.

      (AUC = 0.54 ± 0.04)

Feature selection

   👍 Wilcoxon test based methods showed the highest predictive performance

      (AUC = 0.65 ± 0.02)

   👎 Chi-square & Conditional informax feature extraction displayed the lowest predictive performance. (AUC = 0.60 ± 0.03)

Stability of the feature selection and classification methods

✅ Feature selection

   👍 Mutual Information Maximisation was the most stable (stability = 0.94 ± 0.02)

   👍 Relief was the second best (stability = 0.91 ± 0.05)

   👎 GINI(GINI index), JMI(Joint mutual information), CHSQ(Chi-square), DISR(Double input symmetric relevance), CIFE(Conditional informax feature extraction) showed relatively low stability.

✅ Classification

    - RSD(Relative standard deviation) were used for measuring empirical stability.

   👍 Bayesian classifier was the best (RSD = 0.86%)

   👍 Generalised linear models was the second best (RSD = 2.19%)

   👍 Partial least square and principle component regression was the third best (RSD = 2.24%)

   👎 Boosting had the lowest stability among the classification methods.


Stability and Predictive Performance



✅ 👍 Feature selection methods

 Wilcoxon (stability = 0.84 ± 0.05, AUC = 0.65 ± 0.02)

 Mutual information feature selection (stability = 0.8 ± 0.03, AUC = 0.63 ± 0.03)

 Minimum redundancy maximum relevance (stability = 0.74 ± 0.03, AUC = 0.63 ± 0.03)

 Fisher score (stability = 0.78 ± 0.08, AUC = 0.62 ± 0.04)

are preferred as their stability and predictive performance was higher than corresponding median values(stability=0.735, AUC=0.615) across all feature selection methods.

✅ 👍 Classification methods

 RF (RSD = 3.52%, AUC = 0.66 ± 0.03)

 BY (RSD = 0.86%, AUC = 0.64 ± 0.05)

 BAG (RSD = 5.56%, AUC = 0.64 ± 0.03)

 GLM (RSD = 2.19%, AUC = 0.63 ± 0.02)

 PLSR (RSD = 2.24%, AUC = 0.63 ± 0.02)

showed that the stability and predictive performance was higher than the corresponding median values(RSD = 5.93%, AUC = 0.61).


Experimental Factors Affecting the Radiomics Based Survival Prediction

 - 3 experimental factors (feature selection methods, classification methods, and the number of selected features) 의 effect를 quantify하기 위해 AUC score에 대한 ANOVA 실시

 - ANOVA result: all 3 factors and their interactions are significant.

 - Classification method was the most dominant source of variability (34.21%)

 - Feature selection accounted for 6.25%

 - Classification X Feature selection interaction explained 23.03%

 - Size of the selected feature subset only shared 1.65% of the total variance



Discussion

 Feature selection methods는 크게 3 카테고리로 나눌 수 있음

(1) filter methods 

     - This paper only investigated filter methods as these are classifier independent.

    • simple feature ranking methods based on some heuristic scoring criterion

    • computationally efficient

    • high generalisability and scalability

(2) wrapper methods

    • classifier dependent

    ⇨ may produce feature subsets that are overly specific to the classifiers, hence low            generalisability

    • search through the whole feature space and identify a relevant and non-redundant          feature subset.

     computationally expensive 

(3) embedded methods

    • classifier dependent

    ⇨ lacks in the generalisability

    • incorporate feature selection as a part of training process 

     computationally efficient as compared to the wrappers. 


Filter Methods

 - J : scoring criterion (relevance index)

 - Y : class labels

 - X : set of all features

 - Xk : the feature to be evaluated

 - S : the set of already selected features


위 내용을 작성할 때 Parmar, C., Grossmann, P., Bussink, J. et al. Machine Learning methods for Quantitative Radiomic Biomarkers. Sci Rep 5, 13087 (2015). 해당 논문을 참고하였음.


댓글

이 블로그의 인기 게시물

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. $$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$ 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. $$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$ 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...