본문 바로가기

Data Science/Pandas

결측치 처리 - KNNImputer

728x90

결측 데이터를 처리하는 방법으로는 크게 2가지 방법이 있습니다.

  1. 단순 대치법: 수치형 변수라면, 각 컬럼의 평균이나 중앙값을 사용하여 결측치를 채울 수 있습니다. 만약 범주형 변수라면, 최빈값을 사용하여 대치할 수 있습니다.
  2. KNN을 이용한 결측치 대체: 보간법 중 결측치가 없는 컬럼들의 최근접 이웃 알고리즘을 통해 결측치가 있는 변수를 채울 수 있습니다. 단, 이 방법은 거리 계산이 가능한 수치형 변수만 가능합니다.

아래의 데이터를 활용하여 KNNImputer를 활용한 결측치 변수를 처리해 보도록 하겠습니다. 

그림과 같이 결측치가 존재하고, 결측치가 존재하는 데이터는 수치형 데이터인 것을 확인할 수 있습니다.

 


 

이제 이 결측치를 채워보도록 하겠습니다. 먼저 수치형 변수만 추출하여 데이터프레임을 재구성하고 KNNImputer()를 이용하여 결측치르 대치한 df_filled 데이터프레임을 생성하여 처리하였습니다.

 


 

출처

[데싸라면, 빨간색 물고기, 자투리코드] 파이썬 한권으로 끝내기: 데이터분석전문가(ADP) + 빅데이터분석기사 실기대비, 시대고시기획(2022)

728x90
반응형

'Data Science > Pandas' 카테고리의 다른 글

데이터 분석 및 학습 (전체 과정)  (0) 2023.09.03
GridSearch를 이용한 model training  (0) 2023.09.01
Confusion Matrix - 혼동행렬  (0) 2023.09.01
PCA - 차원 축소  (0) 2023.08.31
날짜 데이터 핸들링 (datetime)  (0) 2023.08.30