R 嵌套与未嵌套(整齐)数据框的大小?
使用包含列表列(嵌套)的data.frame。这让我想知道为什么这样工作有好处。我假设您希望最小化每个表使用的内存量……但当我检查时,我感到惊讶: 比较嵌套格式和整齐格式的表格大小: 1.生成2列和5列数据框的嵌套/整齐版本: 3.按父对象着色的打印列大小: 问题:R 嵌套与未嵌套(整齐)数据框的大小?,r,performance,memory,pryr,R,Performance,Memory,Pryr,使用包含列表列(嵌套)的data.frame。这让我想知道为什么这样工作有好处。我假设您希望最小化每个表使用的内存量……但当我检查时,我感到惊讶: 比较嵌套格式和整齐格式的表格大小: 1.生成2列和5列数据框的嵌套/整齐版本: 3.按父对象着色的打印列大小: 问题: 与嵌套df相比,整齐的2列df占地面积更小,这是什么原因 为什么5列df的效果没有改变 library(pryr) library(dplyr) library(tidyr) library(g
- 与嵌套df相比,整齐的2列df占地面积更小,这是什么原因
- 为什么5列df的效果没有改变
library(pryr)
library(dplyr)
library(tidyr)
library(ggvis)
n <- 1:1E6
df <- data_frame(id = n, vars = lapply(n, function(x) x <- sample(letters,sample(1:26,1))))
dfu <- df %>% unnest(vars)
df_morecols <- data_frame(id = n, other1 = n, other2 = n, other3 = n,
vars = lapply(n, function(x) x <- sample(letters,sample(1:26,1))))
dfu_morecols <- df_morecols %>% unnest(vars)
head(df)
#> Source: local data frame [6 x 2]
#> id vars
#> 1 1 <chr[16]>
#> 2 2 <chr[4]>
#> 3 3 <chr[26]>
#> 4 4 <chr[9]>
#> 5 5 <chr[11]>
#> 6 6 <chr[18]>
head(dfu)
#> Source: local data frame [6 x 2]
#> id vars
#> 1 1 k
#> 2 1 d
#> 3 1 s
#> 4 1 j
#> 5 1 m
#> 6 1 t
head(df_morecols)
#> Source: local data frame [6 x 5]
#> id other1 other2 other3 vars
#> 1 1 1 1 1 <chr[4]>
#> 2 2 2 2 2 <chr[22]>
#> 3 3 3 3 3 <chr[24]>
#> 4 4 4 4 4 <chr[6]>
#> 5 5 5 5 5 <chr[15]>
#> 6 6 6 6 6 <chr[11]>
head(dfu_morecols)
#> Source: local data frame [6 x 5]
#> id other1 other2 other3 vars
#> 1 1 1 1 1 r
#> 2 1 1 1 1 p
#> 3 1 1 1 1 s
#> 4 1 1 1 1 w
#> 5 2 2 2 2 l
#> 6 2 2 2 2 j
col_sizes <- sapply(c(df,dfu,df_morecols,dfu_morecols),object_size)
col_names <- names(col_sizes)
parent_obj <- c(rep(c('df','dfu'),each = 2),
rep(c('df_morecols','dfu_morecols'),each = 5))
res <- data_frame(parent_obj,col_names,col_sizes) %>%
unite(elementof, parent_obj,col_names, remove = F)
res %>%
ggvis(y = ~elementof, x = ~0, x2 = ~col_sizes, fill = ~parent_obj) %>%
layer_rects(height = band())