Data Science/Machine Learning (2) 썸네일형 리스트형 Feature Selection Feature Extraction: 데이터의 feature를 어떻게 유용하게 만들 것인가 Feature Selection: 데이터에서 유용한 피처를 어떻게 선택할 것인가 feature selection 방법론 1. Filter method: feature 간 관련성 측정 (correlation) 2. Wrapper method: Feature subset의 유용성 측정 3. Embedded method: Feature subset의 유용성 측정하지만 내장 metric 사용 1. Filter Method - 가장 많이 사용 - 통계적 측정 방법 사용: feature 간 상관관계 파악 - 높은 상관계수(영향력)을 가지는 feature 사용 information gain, chi-square test, fis.. Sampling 기법 불균형 데이터 클래스 분포를 예측해야 하는 분류문제에서 예측 라벨 값의 분포수가 현저히 차이나는 데이터로, 불균형한 분포를 가진 데이터로 학습하면 성능에 문제가 발생할 수 있습니다. 불균형한 데이터 셋은 이상 데이터를 정확히 찾아내지 못할 수 있다는 문제점이 존재합니다. 해결방법 소수 클래스에 속하는 데이터들을 추가로 수집합니다. 불균형 데이터 분류 모델에 적합한 성능평가의 지표를 선정합니다. 모델 학습 전, 데이터를 적절한 방식으로 Sampling 합니다. 아래와 같은 샘플링의 종류가 있습니다. UnderSampling: Random Sampling, Tomek Links 등 OverSampling: Resampling, SMOTE, Borderline SMOTE, ADASYN 등 비용 또는 가중치를 .. 이전 1 다음