반응형

Bioinformatics/ML, DL 4

머신러닝 워크플로우 (ML workflow)

머신러닝 워크플로우는 여러 단계로 구성되며, 일반적인 워크플로우는 다음과 같습니다. 데이터 수집: 원본 데이터를 수집하고 구성합니다. 데이터 전처리: 결측치 처리, 데이터 인코딩, 정규화, 스케일링 등을 수행합니다. 데이터 분할: 전체 데이터를 훈련 데이터와 테스트 데이터로 나눕니다 (예: 80% 훈련 데이터, 20% 테스트 데이터). 특성 필터링: 통계적 방법이나 도메인 지식을 활용해 관련 없거나 노이즈가 될 수 있는 특성을 제거합니다. 특성 선택: 머신러닝 알고리즘에 입력으로 사용할 최적의 특성을 선택하기 위해 특성 선택 방법을 적용합니다 (예: LASSO, 랜덤 포레스트). 하이퍼파라미터 최적화: 검증 데이터셋을 사용하여 모델의 하이퍼파라미터를 최적화합니다 (예: 그리드 검색, 랜덤 검색, 베이지안..

특성 필터링(feature filtering)과 특성 선택(feature selection)

머신러닝에서 특성 필터링(feature filtering)과 특성 선택(feature selection)은 다른 개념입니다. 이 두 기법은 모두 입력 데이터의 특성을 줄이는 데 사용되지만, 그 방법과 목적이 다릅니다. 특성 필터링 (Feature Filtering) 특성 필터링은 입력 데이터에서 노이즈(noise)를 제거하거나 중복된 정보를 줄이는 데 초점을 맞춘 전처리 과정입니다. 이 방법은 데이터셋의 차원을 줄이기 위해 관련성이 낮은 특성을 필터링하거나, 상관관계가 높은 특성을 병합하여 일부 특성을 제거하는 데 사용됩니다. 특성 필터링은 주로 데이터의 품질을 향상시키고, 모델의 복잡성을 줄이며, 과적합(overfitting)을 방지하는 데 도움이 됩니다. 특성 선택 (Feature Selection)..

[평가지표] 이진 분류 평가 지표 (Metrics for Binary Classification)

[평가지표] Confusion Matrix (혼동 행렬) TP(True Positive) : 실제 Positive(1), 예측 Positive(1) == True TN(True Negative) : 실제 Negative(0) / 예측 Negative(0) == True FP(False Positive) : 실제 Negative(0).. dev-kimke.tistory.com ↑ 먼저 이걸 알아야 함 1. Accuracy (정확도) 전체 예측 중 얼마나 올바른 예측을 했는지를 나타내는 지표. 값이 높을 수록 예측 정확도도 높음. Error Rate = 1 - Ac..

반응형