728x90
결측 데이터를 처리하는 방법으로는 크게 2가지 방법이 있습니다.
- 단순 대치법: 수치형 변수라면, 각 컬럼의 평균이나 중앙값을 사용하여 결측치를 채울 수 있습니다. 만약 범주형 변수라면, 최빈값을 사용하여 대치할 수 있습니다.
- KNN을 이용한 결측치 대체: 보간법 중 결측치가 없는 컬럼들의 최근접 이웃 알고리즘을 통해 결측치가 있는 변수를 채울 수 있습니다. 단, 이 방법은 거리 계산이 가능한 수치형 변수만 가능합니다.
아래의 데이터를 활용하여 KNNImputer를 활용한 결측치 변수를 처리해 보도록 하겠습니다.
그림과 같이 결측치가 존재하고, 결측치가 존재하는 데이터는 수치형 데이터인 것을 확인할 수 있습니다.
이제 이 결측치를 채워보도록 하겠습니다. 먼저 수치형 변수만 추출하여 데이터프레임을 재구성하고 KNNImputer()를 이용하여 결측치르 대치한 df_filled 데이터프레임을 생성하여 처리하였습니다.
출처
[데싸라면, 빨간색 물고기, 자투리코드] 파이썬 한권으로 끝내기: 데이터분석전문가(ADP) + 빅데이터분석기사 실기대비, 시대고시기획(2022)
728x90
반응형
'Data Science > Pandas' 카테고리의 다른 글
데이터 분석 및 학습 (전체 과정) (0) | 2023.09.03 |
---|---|
GridSearch를 이용한 model training (0) | 2023.09.01 |
Confusion Matrix - 혼동행렬 (0) | 2023.09.01 |
PCA - 차원 축소 (0) | 2023.08.31 |
날짜 데이터 핸들링 (datetime) (0) | 2023.08.30 |