R 嵌套与未嵌套(整齐)数据框的大小?

R 嵌套与未嵌套(整齐)数据框的大小?,r,performance,memory,pryr,R,Performance,Memory,Pryr,使用包含列表列(嵌套)的data.frame。这让我想知道为什么这样工作有好处。我假设您希望最小化每个表使用的内存量……但当我检查时,我感到惊讶: 比较嵌套格式和整齐格式的表格大小: 1.生成2列和5列数据框的嵌套/整齐版本: 3.按父对象着色的打印列大小: 问题: 与嵌套df相比,整齐的2列df占地面积更小,这是什么原因 为什么5列df的效果没有改变 library(pryr) library(dplyr) library(tidyr) library(g

使用包含列表列(嵌套)的data.frame。这让我想知道为什么这样工作有好处。我假设您希望最小化每个表使用的内存量……但当我检查时,我感到惊讶:

比较嵌套格式和整齐格式的表格大小: 1.生成2列和5列数据框的嵌套/整齐版本: 3.按父对象着色的打印列大小:

问题:
  • 与嵌套df相比,整齐的2列df占地面积更小,这是什么原因
  • 为什么5列df的效果没有改变
    library(pryr)
    library(dplyr)
    library(tidyr)
    library(ggvis)
    n <- 1:1E6
    df <- data_frame(id = n, vars = lapply(n, function(x)  x <- sample(letters,sample(1:26,1))))
    dfu <- df %>% unnest(vars)
    df_morecols <- data_frame(id = n, other1 = n, other2 = n, other3 = n,
                     vars = lapply(n, function(x)  x <- sample(letters,sample(1:26,1))))
    dfu_morecols <- df_morecols %>% unnest(vars)
    head(df)
    #> Source: local data frame [6 x 2]

    #>   id      vars
    #> 1  1 <chr[16]>
    #> 2  2  <chr[4]>
    #> 3  3 <chr[26]>
    #> 4  4  <chr[9]>
    #> 5  5 <chr[11]>
    #> 6  6 <chr[18]>

    head(dfu)
    #> Source: local data frame [6 x 2]

    #>   id vars
    #> 1  1    k
    #> 2  1    d
    #> 3  1    s
    #> 4  1    j
    #> 5  1    m
    #> 6  1    t

    head(df_morecols)
    #> Source: local data frame [6 x 5]

    #>   id other1 other2 other3      vars
    #> 1  1      1      1      1  <chr[4]>
    #> 2  2      2      2      2 <chr[22]>
    #> 3  3      3      3      3 <chr[24]>
    #> 4  4      4      4      4  <chr[6]>
    #> 5  5      5      5      5 <chr[15]>
    #> 6  6      6      6      6 <chr[11]>

    head(dfu_morecols)
    #> Source: local data frame [6 x 5]

    #>   id other1 other2 other3 vars
    #> 1  1      1      1      1    r
    #> 2  1      1      1      1    p
    #> 3  1      1      1      1    s
    #> 4  1      1      1      1    w
    #> 5  2      2      2      2    l
    #> 6  2      2      2      2    j
    col_sizes <- sapply(c(df,dfu,df_morecols,dfu_morecols),object_size)
    col_names <- names(col_sizes)
    parent_obj <- c(rep(c('df','dfu'),each = 2),
                    rep(c('df_morecols','dfu_morecols'),each = 5))
    res <- data_frame(parent_obj,col_names,col_sizes) %>% 
      unite(elementof, parent_obj,col_names, remove = F)
    res %>% 
      ggvis(y = ~elementof, x = ~0, x2 = ~col_sizes, fill = ~parent_obj) %>% 
      layer_rects(height = band())