본문 바로가기

dplyr3

[dplyr] arrange, distinct, slice로 데이터 추출 및 정리 dplyr는 data handling을 위한 R에서 사용하는 필수 패키지 입니다. 그럼, dpyr에서 사용되는 기본 함수인 아래 3종류의 함수에 대해 알아보겠습니다.arrange()distinct()slice()library(dplyr) ## ## 다음의 패키지를 부착합니다: 'dplyr'## The following objects are masked from 'package:stats':## ## filter, lag## The following objects are masked from 'package:base':## ## intersect, setdiff, setequal, union 예제에 사용할 간단한 data.frame을 하나 만들어 보겠습니다.x = c(10,20,20,30,1.. 2024. 3. 5.
[preprocessing] 결측값(NA) 찾기 (colSums(is.na()), complete.cases(), filter(), filter_all(), select_if()) 데이터를 다루다 보면 결측값 즉, 비어있는 값을 보게 됩니다. 대부분의 실제 현장에서 수집하는 데이터들은 완전히 수집이 되지 않아 결측값이 존재합니다. 결측값은 수집시 오류가 발생하거나, 기록시 누락 또는 미응답 등 수집 과정에서 문제가 생겨 데이터의 공백이 생긴 경우 입니다. 대부분 결측값을 "NA"로 표시가 되며 도메인에 따라 -999, -99 등으로 표기가 되기도 합니다. 그럼 R에서 결측값을 찾는 방법에 대해 몇 가지 알아 보도록 하겠습니다. 먼저 R에서 결측값이 포함된 데이터를 불러 오겠습니다.결측값이 포함된 간단한 예제 데이터를 만들어서 사용해보도록 하겠습니다. library(tidyverse) > sample = tibble(var1 = c(1,10,100,NA,NA), var2 = c(2,.. 2023. 8. 25.
[dplyr] select, filter, mutate, summarise로 데이터 다루기 dplyr는 R에서 데이터를 다루기 위해 필수적으로 익혀야 할 패키지입니다. 데이터를 구성하는 row와 colum 들을 자유롭게 접근하기 위한 다양한 함수들이 있습니다. 우선, R에서 데이터를 구성하는 타입은 기본적으로 data.frame입니다. matrix 형태로도 데이터를 다룰 수 있지만, dplyr를 적용하기 위해서는 data.frame 형태여야 합니다. data.frmae은 row와 column으로 구성 되어 있고, 각 column의 타입은 달라도 상관 없습니다. 1. data 먼저, 필요한 패키지를 불러오고, 사용할 데이터를 탐색합니다. 사용할 데이터는 MLDataR 패키지의 heartdisease입니다. MLDataR은 머신러닝용 데이터를 모아놓은 패키지입니다. 패키지 로드 후, dplyr의 .. 2023. 7. 26.