Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/70.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 您应该如何使用data.table';由';参数来创建多列数据?_R_Data.table - Fatal编程技术网

R 您应该如何使用data.table';由';参数来创建多列数据?

R 您应该如何使用data.table';由';参数来创建多列数据?,r,data.table,R,Data.table,我正在使用data.table的by参数创建许多列。下面是一些示例数据,我将用它们来说明这个问题 > dt <- data.table(x=runif(10), group=c(1,1,1,1,1,2,2,2,2,2)) > dt x group 1: 0.0488727 1 2: 0.3087102 1 3: 0.8107115 1 4: 0.7368206 1 5: 0.2941478 1 6: 0

我正在使用data.table的by参数创建许多列。下面是一些示例数据,我将用它们来说明这个问题

> dt <- data.table(x=runif(10), group=c(1,1,1,1,1,2,2,2,2,2))
> dt
            x group
 1: 0.0488727     1
 2: 0.3087102     1
 3: 0.8107115     1
 4: 0.7368206     1
 5: 0.2941478     1
 6: 0.5221693     2
 7: 0.2505612     2
 8: 0.2730681     2
 9: 0.2098595     2
10: 0.4512163     2
这是不好的,因为您创建的列包含大量不必要的重复元素。我不知道有什么合理的方法可以把数据表折叠起来

另一种方法是将每个结果放入单独的data.table中,然后将它们合并在一起:

> a<-dt[, max(x), by=group]
> b<-dt[, min(x), by=group]
> c<-dt[, mean(x), by=group]
> d<-dt[, median(x), by=group]
> setnames(a, "V1", "max")
> setnames(b, "V1", "min")
> setnames(c, "V1", "mean")
> setnames(d, "V1", "median")
> setkeyv(a, "group")
> setkeyv(b, "group")
> setkeyv(c, "group")
> setkeyv(d, "group")
> dt.summary.stats -> a[b][c][d]
> dt.summary.stats
   group       max       min      mean    median
1:     1 0.8107115 0.0488727 0.4398526 0.3087102
2:     2 0.5221693 0.2098595 0.3413749 0.2730681
>a b c d集合名(a,“V1”,“max”)
>集合名(b,“V1”,“min”)
>集合名(c,“V1”,“平均值”)
>集合名(d,“V1”,“中值”)
>setkeyv(a,“集团”)
>setkeyv(b,“集团”)
>setkeyv(c,“集团”)
>setkeyv(d,“集团”)
>dt.summary.stats->a[b][c][d]
>dt.summary.stats
组最大最小平均中位数
1:     1 0.8107115 0.0488727 0.4398526 0.3087102
2:     2 0.5221693 0.2098595 0.3413749 0.2730681
dt.summary.stats包含我想要的结果,但这感觉像是一种非常愚蠢的方法。正确的方法是什么?

给你:

dt[, list(max = max(x), min = min(x), mean = mean(x), median = median(x)),
     by = group]
#   group       max        min      mean    median
#1:     1 0.8185661 0.02120035 0.3277341 0.1721039
#2:     2 0.9243562 0.28941571 0.6137555 0.5826848
或者只需使用
摘要

dt[, as.list(summary(x)), by = group]
#   group   Min. 1st Qu. Median   Mean 3rd Qu.   Max.
#1:     1 0.0212  0.1517 0.1721 0.3277  0.4751 0.8186
#2:     2 0.2894  0.4243 0.5827 0.6138  0.8480 0.9244
怎么样

aggregate(dt$x,by=list(dt$group),summary)
这应该可以做到:

> dt[, list(max = max(x), min = min(x), mean = mean(x), median = median(x)), by = group]
   group       max         min      mean    median
1:     1 0.9287178 0.337082563 0.6513641 0.6619631
2:     2 0.6329924 0.001502332 0.4282116 0.4998901

下面是一种允许您使用任意摘要函数的方法

summary_fun <- function(.fun,.x,...) {
  .FUN = match.fun(.fun)
  r <- .FUN(.x,...)
}


summary_list <- function(funs,.x,...){
  r <- lapply(funs, summary_fun,.x=.x,...)
  setattr(r,'names',funs)
}


dt[,summary_list(c('mean','median','min','max'),.x=x,na.rm=TRUE),by=group]
#   group   mean median     min    max
# 1     1 0.5128 0.5417 0.05253 0.8978
# 2     2 0.5721 0.5828  0.3817 0.7549

summary\u您可以在plyr软件包中尝试ddply。ddply(dt,(组),总结,最大值=最大值(x),最小值=最小值(x),平均值=平均值(x),中位数=中位数(x))有些相似:
summary_fun <- function(.fun,.x,...) {
  .FUN = match.fun(.fun)
  r <- .FUN(.x,...)
}


summary_list <- function(funs,.x,...){
  r <- lapply(funs, summary_fun,.x=.x,...)
  setattr(r,'names',funs)
}


dt[,summary_list(c('mean','median','min','max'),.x=x,na.rm=TRUE),by=group]
#   group   mean median     min    max
# 1     1 0.5128 0.5417 0.05253 0.8978
# 2     2 0.5721 0.5828  0.3817 0.7549