[preprocessing] 결측값(NA) 찾기 (colSums(is.na()), complete.cases(), filter(), filter_all(), select_if())
데이터를 다루다 보면 결측값 즉, 비어있는 값을 보게 됩니다. 대부분의 실제 현장에서 수집하는 데이터들은 완전히 수집이 되지 않아 결측값이 존재합니다. 결측값은 수집시 오류가 발생하거나, 기록시 누락 또는 미응답 등 수집 과정에서 문제가 생겨 데이터의 공백이 생긴 경우 입니다. 대부분 결측값을 "NA"로 표시가 되며 도메인에 따라 -999, -99 등으로 표기가 되기도 합니다. 그럼 R에서 결측값을 찾는 방법에 대해 몇 가지 알아 보도록 하겠습니다. 먼저 R에서 결측값이 포함된 데이터를 불러 오겠습니다.결측값이 포함된 간단한 예제 데이터를 만들어서 사용해보도록 하겠습니다. library(tidyverse) > sample = tibble(var1 = c(1,10,100,NA,NA), var2 = c(2,..
2023. 8. 25.