Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/66.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/variables/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 重塑2:聚合函数的多个结果?_R_Reshape_Reshape2 - Fatal编程技术网

R 重塑2:聚合函数的多个结果?

R 重塑2:聚合函数的多个结果?,r,reshape,reshape2,R,Reshape,Reshape2,从我读到的内容来看,重塑2中的*cast操作丢失了其result\u变量功能。Hadley暗示为此使用plyr(将多个结果列附加到输入数据帧)。我如何实现文档示例 aqm <- melt(airquality, id=c("month", "day"), na.rm=TRUE) cast(aqm, month ~ variable + result_variable, range) aqm由于“重塑2”和“plyr”软件包的灵活性,这个问题有多种答案。我将在这里展示一个最容易理解的示例:

从我读到的内容来看,重塑2中的*cast操作丢失了其
result\u变量
功能。Hadley暗示为此使用plyr(将多个结果列附加到输入数据帧)。我如何实现文档示例

aqm <- melt(airquality, id=c("month", "day"), na.rm=TRUE)
cast(aqm, month ~ variable + result_variable, range)

aqm由于“重塑2”和“plyr”软件包的灵活性,这个问题有多种答案。我将在这里展示一个最容易理解的示例:

library(reshape2)
library(plyr)

aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")
dcast(aqm_melt, Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93
然后我们指定要用于分组数据的变量“月”和“变量”。我们使用
函数直接引用这些变量,而不是引用它们包含的值

ddply(aqm, .(Month, variable),
现在我们需要选择一个聚合函数。我们在这里选择了
summary
函数,因为我们有一些列('Day'和'value'),我们不想包含在最终数据中。
summary
函数将删除所有原始的非分组列

ddply(aqm, .(Month, variable), summarize,
最后,我们为每个组指定要执行的计算。我们可以引用原始数据帧(“aqm”)的列,即使它们不会包含在我们的最终数据帧中。这就是它的样子:

aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))

#    Month variable  min   max
# 1      5    Ozone  1.0 115.0
# 2      5  Solar.R  8.0 334.0
# 3      5     Wind  5.7  20.1
# 4      5     Temp 56.0  81.0
# 5      6    Ozone 12.0  71.0
# 6      6  Solar.R 31.0 332.0
# 7      6     Wind  1.7  20.7
# 8      6     Temp 65.0  93.0
# 9      7    Ozone  7.0 135.0
# 10     7  Solar.R  7.0 314.0
# 11     7     Wind  4.1  14.9
# 12     7     Temp 73.0  92.0
# 13     8    Ozone  9.0 168.0
# 14     8  Solar.R 24.0 273.0
# 15     8     Wind  2.3  15.5
# 16     8     Temp 72.0  97.0
# 17     9    Ozone  7.0  96.0
# 18     9  Solar.R 14.0 259.0
# 19     9     Wind  2.8  16.6
# 20     9     Temp 63.0  93.0
步骤4:我们最终可以通过将数据转换成最终形式来结束这一切

dcast(aqm_melt, Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

希望这个例子能给你足够的理解,让你开始学习。请注意,“plyr”软件包的一个新的数据帧优化版本正在以“dplyr”的名义积极开发中,因此您可能希望在新软件包变得更加成熟后,将您的代码转换为新软件包。

以下是一个
dplyr
解决方案,该解决方案利用了令人惊叹的
%%
功能。它还使用了基本的
重塑
功能,该功能通常未得到充分利用(IMHO)。代码是不言自明的

library(dplyr)
airquality %>%
  melt(c('Month', 'Day')) %>%
  group_by(Month, variable) %>%
  summarise(min = min(value, na.rm = T), max = max(value, na.rm = T)) %>%
  reshape(timevar = 'variable', idvar = 'Month', direction = 'wide') %>%
  arrange(Month)

我认为其他答案应该包括如何使用“plyr”或“dplyr”(我鼓励你继续朝这个方向看)

为了好玩,这里有一个围绕
dcast
的包装器,可以让您指定多个函数。它不适用于返回多个值的函数(如
range
),它要求您使用命名的函数列表

dcastMult <- function(data, formula, value.var = "value", 
                   funs = list("min" = min, "max" = max)) {
  require(reshape2)
  if (is.null(names(funs)) | any(names(funs) == "")) stop("funs must be named")
  Form <- formula(formula)
  LHS <- as.character(Form[[2]])
  if (length(LHS) > 1) LHS <- LHS[-1]
  temp <- lapply(seq_along(funs), function(Z) {
    T1 <- dcast(data, Form, value.var = value.var, 
                fun.aggregate=match.fun(funs[[Z]]), fill = 0)
    Names <- !names(T1) %in% LHS
    names(T1)[Names] <- paste(names(T1)[Names], names(funs)[[Z]], sep = "_")
    T1
  })
  Reduce(function(x, y) merge(x, y), temp)
}
使用to,我们可以同时强制转换多个
value.var
列(还可以在
fun.aggregate
中使用多个聚合函数)。有关更多信息以及示例部分,请参见
?dcast

下面是我们如何使用dcast的方法:

require(data.table) # v1.9.5+
dt = as.data.table(airquality)
valvars = c("Ozone", "Solar.R", "Wind", "Temp")
dcast(dt, Month ~ ., fun=list(min, max), na.rm=TRUE, value.var=valvars)
#    Month ._min_Ozone ._min_Solar.R ._min_Wind ._min_Temp ._max_Ozone ._max_Solar.R ._max_Wind
# 1:     5           1             8        5.7         56         115           334       20.1
# 2:     6          12            31        1.7         65          71           332       20.7
# 3:     7           7             7        4.1         73         135           314       14.9
# 4:     8           9            24        2.3         72         168           273       15.5
# 5:     9           7            14        2.8         63          96           259       16.6
#    ._max_Temp
# 1:         81
# 2:         93
# 3:         92
# 4:         97
# 5:         93

您可以安全地忽略这些警告。

您是否也运行了
names(airquality)否,colnames已经用小写。。。没有必要。谢谢,我真的很喜欢这是一个非常好的解决方案,但是您可以将参数传递给
funs
,或者将任何其他参数传递给
dcast()
调用吗?怎么能让它更通用一点呢?
library(dplyr)
airquality %>%
  melt(c('Month', 'Day')) %>%
  group_by(Month, variable) %>%
  summarise(min = min(value, na.rm = T), max = max(value, na.rm = T)) %>%
  reshape(timevar = 'variable', idvar = 'Month', direction = 'wide') %>%
  arrange(Month)
dcastMult <- function(data, formula, value.var = "value", 
                   funs = list("min" = min, "max" = max)) {
  require(reshape2)
  if (is.null(names(funs)) | any(names(funs) == "")) stop("funs must be named")
  Form <- formula(formula)
  LHS <- as.character(Form[[2]])
  if (length(LHS) > 1) LHS <- LHS[-1]
  temp <- lapply(seq_along(funs), function(Z) {
    T1 <- dcast(data, Form, value.var = value.var, 
                fun.aggregate=match.fun(funs[[Z]]), fill = 0)
    Names <- !names(T1) %in% LHS
    names(T1)[Names] <- paste(names(T1)[Names], names(funs)[[Z]], sep = "_")
    T1
  })
  Reduce(function(x, y) merge(x, y), temp)
}
dcastMult(aqm, month ~ variable, value.var="value",
       funs = list("min" = min, "max" = max))
#   month ozone_min solar.r_min wind_min temp_min ozone_max solar.r_max wind_max temp_max
# 1     5         1           8      5.7       56       115         334     20.1       81
# 2     6        12          31      1.7       65        71         332     20.7       93
# 3     7         7           7      4.1       73       135         314     14.9       92
# 4     8         9          24      2.3       72       168         273     15.5       97
# 5     9         7          14      2.8       63        96         259     16.6       93
require(data.table) # v1.9.5+
dt = as.data.table(airquality)
valvars = c("Ozone", "Solar.R", "Wind", "Temp")
dcast(dt, Month ~ ., fun=list(min, max), na.rm=TRUE, value.var=valvars)
#    Month ._min_Ozone ._min_Solar.R ._min_Wind ._min_Temp ._max_Ozone ._max_Solar.R ._max_Wind
# 1:     5           1             8        5.7         56         115           334       20.1
# 2:     6          12            31        1.7         65          71           332       20.7
# 3:     7           7             7        4.1         73         135           314       14.9
# 4:     8           9            24        2.3         72         168           273       15.5
# 5:     9           7            14        2.8         63          96           259       16.6
#    ._max_Temp
# 1:         81
# 2:         93
# 3:         92
# 4:         97
# 5:         93