R 用于寻址数据帧元素的索引序列_R_Dataframe_Data.table_Benchmarking

R 用于寻址数据帧元素的索引序列

r dataframe

R 用于寻址数据帧元素的索引序列,r,dataframe,data.table,benchmarking,R,Dataframe,Data.table,Benchmarking,有几种方法可以访问数据帧中的特定元素，使用括号（[]）和美元符号（$）的各种组合。在对时间敏感的函数中，使用哪一个是重要的对一些可能的组合进行基准测试： library(microbenchmark) df <- data.frame(a=1:6,b=1:6,c=1:6,d=1:6,e=1:6,f=1:6) microbenchmark(df$c[3], df[3,]$c, df[3,3], df[

有几种方法可以访问数据帧中的特定元素，使用括号（

[]

）和美元符号（

）的各种组合。在对时间敏感的函数中，使用哪一个是重要的

对一些可能的组合进行基准测试：

library(microbenchmark)
df <- data.frame(a=1:6,b=1:6,c=1:6,d=1:6,e=1:6,f=1:6)
microbenchmark(df$c[3],
               df[3,]$c,
               df[3,3],
               df[3,][3],
               df[3,][[3]],
               df[,3][3],
               times=1e3)

我们看到，

df$c[3]

最快，紧随其后的是

df[，3][3]

。其他人则慢得多

在对时间敏感的应用程序中，我经常使用数据表而不是帧，因为排序和子集操作通常要快得多。但是，寻址操作可能会慢得多，我们可以看到，如果我们对

数据重复上述操作。表

：

library(data.table)
dt <- as.data.table(df)
microbenchmark(dt$c[3],
               dt[3,]$c,
               dt[3,3],
               dt[3,][[3]],
               times=1e3)
Unit: microseconds
         expr     min       lq      mean   median       uq      max neval
      dt$c[3]   9.503  11.4020  14.90066  12.6820  13.8950 1336.407  1000
    dt[3, ]$c 417.756 437.0495 480.26532 448.8625 463.6350 2909.038  1000
     dt[3, 3] 205.115 218.9590 238.78000 227.9575 239.1265 1554.503  1000
 dt[3, ][[3]] 414.378 435.2115 470.76853 447.1505 461.3310 1906.432  1000

所以看起来df[[i，j]]是最快的，紧随其后的是df[[“colname”][j]。使用哪种可能取决于您是否需要使用列名或数字

如果我们可以假设在所有平台和所有数据类型上都是这样，那么问题仍然悬而未决。

如我在评论中所述，

df$c[3]

实际上被解析为

'[['（df，'c'）[3]

，因此跳过解析过程会导致更快的执行也就不足为奇了。data.table比较大多是非等效的，除非使用

这不是真正的data.table函数

Unit: microseconds
         expr     min       lq      mean   median       uq      max neval   cld
      df$c[3]  16.035  16.8245  17.63600  17.3090  17.9400   31.158  1000 ab   
 df[["c"]][3]  13.008  13.9090  14.60883  14.2775  14.8355  121.634  1000 a    
  (df[3, ])$c 137.376 140.4895 143.57778 141.6055 143.8310  175.180  1000    d 
     df[3, 3]  29.316  30.5715  31.25617  30.9040  31.3165   49.764  1000   c  
   df[3, ][3] 156.524 159.4180 167.99243 160.3910 162.3120 2636.693  1000     e
 df[3, ][[3]] 134.975 137.3945 142.92265 138.3810 140.2370 2675.090  1000    d 
   df[, 3][3]  20.108  21.2860  21.94357  21.5810  21.8640   59.057  1000  b

我承认对我写的代码感到惊讶：

'[['（df，'c'）[3]，

被解析为

df[[“c”][3]

，并且对一些结果感到困惑，但一般规则是先选择列，然后在结果向量中选择位置，通常要快得多

另外：这需要用更大的物体进行测试。有行>>列的物体

斑点清晰的理查德。出于某种原因，df[3，][3]有效，但dt[3，][3]无效。同样对于df[，3][3]有效，但dt[，3][3]没有。我认为数据表从数据帧继承了它们的属性，所以这让我感到惊讶，但我认为这个问题的基本前提仍然成立。如果你喜欢基准测试，你会喜欢这个：关于I和j参数，

[.data.table

的行为与

[.data.frame

。没有

$.data.table

，因此您的表达式不会调用类似的底层函数。因为

$.data.frame（df，name）

正在调用

'[[（df，“name”）

从编程的角度来看，这更安全，我认为您需要添加一些比较，删除其他比较。根据上述注释，我将编辑问题以删除不正确的数据。表调用。42，您还建议我添加更多比较。如果您可以指定哪一个，我也将进行此更改您省略的最快选项！

df[[3,3]]

df <- data.frame(a=1:1000,b=1:1000,c=1:1000,d=1:1000,e=1:1000,f=1:1000)

Unit: microseconds
         expr    min      lq       mean  median       uq      max neval
      df$c[3]  8.314  9.7610  12.870667 10.6260  12.0950 1250.339  1000
 df[["c"]][3]  6.932  8.0670   9.652672  8.7075   9.9445   26.512  1000
  (df[3, ])$c 72.395 77.2390  90.893724 79.8320  95.8540  256.082  1000
     df[3, 3] 14.871 16.2625  19.377482 17.1180  20.1720   47.720  1000
   df[3, ][3] 82.446 86.7680 102.462603 89.9660 107.7965  232.685  1000
 df[3, ][[3]] 70.559 75.2140  93.581394 78.3385  93.4235 1507.933  1000
   df[, 3][3]  9.933 11.4770  13.430309 12.1090  14.0900   38.213  1000
   df[[3, 3]]  6.465  7.8355   9.236773  8.4500   9.6355   29.833  1000

Unit: microseconds
         expr     min       lq      mean   median       uq      max neval   cld
      df$c[3]  16.035  16.8245  17.63600  17.3090  17.9400   31.158  1000 ab   
 df[["c"]][3]  13.008  13.9090  14.60883  14.2775  14.8355  121.634  1000 a    
  (df[3, ])$c 137.376 140.4895 143.57778 141.6055 143.8310  175.180  1000    d 
     df[3, 3]  29.316  30.5715  31.25617  30.9040  31.3165   49.764  1000   c  
   df[3, ][3] 156.524 159.4180 167.99243 160.3910 162.3120 2636.693  1000     e
 df[3, ][[3]] 134.975 137.3945 142.92265 138.3810 140.2370 2675.090  1000    d 
   df[, 3][3]  20.108  21.2860  21.94357  21.5810  21.8640   59.057  1000  b