Bioinformatics/ML, DL

특성 필터링(feature filtering)과 특성 선택(feature selection)

김개발^^ 2023. 4. 28. 05:21
반응형

머신러닝에서 특성 필터링(feature filtering)과 특성 선택(feature selection)은 다른 개념입니다. 이 두 기법은 모두 입력 데이터의 특성을 줄이는 데 사용되지만, 그 방법과 목적이 다릅니다.

  1. 특성 필터링 (Feature Filtering) 특성 필터링은 입력 데이터에서 노이즈(noise)를 제거하거나 중복된 정보를 줄이는 데 초점을 맞춘 전처리 과정입니다. 이 방법은 데이터셋의 차원을 줄이기 위해 관련성이 낮은 특성을 필터링하거나, 상관관계가 높은 특성을 병합하여 일부 특성을 제거하는 데 사용됩니다. 특성 필터링은 주로 데이터의 품질을 향상시키고, 모델의 복잡성을 줄이며, 과적합(overfitting)을 방지하는 데 도움이 됩니다.
  2. 특성 선택 (Feature Selection) 특성 선택은 머신러닝 모델의 성능을 최적화하기 위해 가장 중요한 특성들만 선택하는 과정입니다. 이 방법은 모델의 예측 능력에 큰 영향을 미치는 특성을 식별하고, 중요도가 낮은 특성을 제거하여 차원을 줄입니다. 특성 선택은 모델의 학습 속도를 높이고, 해석 가능성을 개선하며, 과적합을 방지하는 데 도움이 됩니다. 특성 선택 기법에는 필터 기반, 래퍼 기반, 임베디드 기반 방법 등이 있습니다.

결론적으로, 특성 필터링은 데이터 전처리 과정에서 노이즈를 줄이거나 중복된 정보를 제거하는 데 사용되며, 특성 선택은 모델의 성능을 최적화하기 위해 중요한 특성을 선택하는 과정입니다. 이 두 기법은 차원 축소와 모델 최적화를 위해 함께 사용될 수 있습니다.

 

특성 필터링 방법:

  1. 상관 계수 기반 필터링 (Correlation coefficient-based filtering)
  2. 분산 기반 필터링 (Variance-based filtering)
  3. 최대 정보 계수 기반 필터링 (Maximal information coefficient-based filtering)

특성 선택 방법:

  1. 순차 후진 제거법 (Sequential backward elimination)
  2. 랜덤 포레스트 (Random Forest)
  3. LASSO (Least Absolute Shrinkage and Selection Operator)
반응형