반응형
머신러닝에서 특성 필터링(feature filtering)과 특성 선택(feature selection)은 다른 개념입니다. 이 두 기법은 모두 입력 데이터의 특성을 줄이는 데 사용되지만, 그 방법과 목적이 다릅니다.
- 특성 필터링 (Feature Filtering) 특성 필터링은 입력 데이터에서 노이즈(noise)를 제거하거나 중복된 정보를 줄이는 데 초점을 맞춘 전처리 과정입니다. 이 방법은 데이터셋의 차원을 줄이기 위해 관련성이 낮은 특성을 필터링하거나, 상관관계가 높은 특성을 병합하여 일부 특성을 제거하는 데 사용됩니다. 특성 필터링은 주로 데이터의 품질을 향상시키고, 모델의 복잡성을 줄이며, 과적합(overfitting)을 방지하는 데 도움이 됩니다.
- 특성 선택 (Feature Selection) 특성 선택은 머신러닝 모델의 성능을 최적화하기 위해 가장 중요한 특성들만 선택하는 과정입니다. 이 방법은 모델의 예측 능력에 큰 영향을 미치는 특성을 식별하고, 중요도가 낮은 특성을 제거하여 차원을 줄입니다. 특성 선택은 모델의 학습 속도를 높이고, 해석 가능성을 개선하며, 과적합을 방지하는 데 도움이 됩니다. 특성 선택 기법에는 필터 기반, 래퍼 기반, 임베디드 기반 방법 등이 있습니다.
결론적으로, 특성 필터링은 데이터 전처리 과정에서 노이즈를 줄이거나 중복된 정보를 제거하는 데 사용되며, 특성 선택은 모델의 성능을 최적화하기 위해 중요한 특성을 선택하는 과정입니다. 이 두 기법은 차원 축소와 모델 최적화를 위해 함께 사용될 수 있습니다.
특성 필터링 방법:
- 상관 계수 기반 필터링 (Correlation coefficient-based filtering)
- 분산 기반 필터링 (Variance-based filtering)
- 최대 정보 계수 기반 필터링 (Maximal information coefficient-based filtering)
특성 선택 방법:
- 순차 후진 제거법 (Sequential backward elimination)
- 랜덤 포레스트 (Random Forest)
- LASSO (Least Absolute Shrinkage and Selection Operator)
반응형
'Bioinformatics > ML, DL' 카테고리의 다른 글
머신러닝 워크플로우 (ML workflow) (0) | 2023.04.28 |
---|---|
[평가지표] 이진 분류 평가 지표 (Metrics for Binary Classification) (0) | 2022.02.28 |
[평가지표] Confusion Matrix (혼동 행렬) (0) | 2022.02.28 |