[dplyr] arrange, distinct, slice로 데이터 추출 및 정리
dplyr는 data handling을 위한 R에서 사용하는 필수 패키지 입니다. 그럼, dpyr에서 사용되는 기본 함수인 아래 3종류의 함수에 대해 알아보겠습니다.arrange()distinct()slice()library(dplyr) ## ## 다음의 패키지를 부착합니다: 'dplyr'## The following objects are masked from 'package:stats':## ## filter, lag## The following objects are masked from 'package:base':## ## intersect, setdiff, setequal, union 예제에 사용할 간단한 data.frame을 하나 만들어 보겠습니다.x = c(10,20,20,30,1..
2024. 3. 5.
[preprocessing] 결측값(NA) 찾기 (colSums(is.na()), complete.cases(), filter(), filter_all(), select_if())
데이터를 다루다 보면 결측값 즉, 비어있는 값을 보게 됩니다. 대부분의 실제 현장에서 수집하는 데이터들은 완전히 수집이 되지 않아 결측값이 존재합니다. 결측값은 수집시 오류가 발생하거나, 기록시 누락 또는 미응답 등 수집 과정에서 문제가 생겨 데이터의 공백이 생긴 경우 입니다. 대부분 결측값을 "NA"로 표시가 되며 도메인에 따라 -999, -99 등으로 표기가 되기도 합니다. 그럼 R에서 결측값을 찾는 방법에 대해 몇 가지 알아 보도록 하겠습니다. 먼저 R에서 결측값이 포함된 데이터를 불러 오겠습니다.결측값이 포함된 간단한 예제 데이터를 만들어서 사용해보도록 하겠습니다. library(tidyverse) > sample = tibble(var1 = c(1,10,100,NA,NA), var2 = c(2,..
2023. 8. 25.