본문 바로가기

Filter2

[preprocessing] 결측값(NA) 찾기 (colSums(is.na()), complete.cases(), filter(), filter_all(), select_if()) 데이터를 다루다 보면 결측값 즉, 비어있는 값을 보게 됩니다. 대부분의 실제 현장에서 수집하는 데이터들은 완전히 수집이 되지 않아 결측값이 존재합니다. 결측값은 수집시 오류가 발생하거나, 기록시 누락 또는 미응답 등 수집 과정에서 문제가 생겨 데이터의 공백이 생긴 경우 입니다. 대부분 결측값을 "NA"로 표시가 되며 도메인에 따라 -999, -99 등으로 표기가 되기도 합니다. 그럼 R에서 결측값을 찾는 방법에 대해 몇 가지 알아 보도록 하겠습니다. 먼저 R에서 결측값이 포함된 데이터를 불러 오겠습니다.결측값이 포함된 간단한 예제 데이터를 만들어서 사용해보도록 하겠습니다. library(tidyverse) > sample = tibble(var1 = c(1,10,100,NA,NA), var2 = c(2,.. 2023. 8. 25.
[dplyr] select, filter, mutate, summarise로 데이터 다루기 dplyr는 R에서 데이터를 다루기 위해 필수적으로 익혀야 할 패키지입니다. 데이터를 구성하는 row와 colum 들을 자유롭게 접근하기 위한 다양한 함수들이 있습니다. 우선, R에서 데이터를 구성하는 타입은 기본적으로 data.frame입니다. matrix 형태로도 데이터를 다룰 수 있지만, dplyr를 적용하기 위해서는 data.frame 형태여야 합니다. data.frmae은 row와 column으로 구성 되어 있고, 각 column의 타입은 달라도 상관 없습니다. 1. data 먼저, 필요한 패키지를 불러오고, 사용할 데이터를 탐색합니다. 사용할 데이터는 MLDataR 패키지의 heartdisease입니다. MLDataR은 머신러닝용 데이터를 모아놓은 패키지입니다. 패키지 로드 후, dplyr의 .. 2023. 7. 26.