如何在R中按分组列求和?

如何在R中按分组列求和?,r,dplyr,R,Dplyr,这是我的意见。一个包含n列的数据帧,以及一个将每个id分配给组的辅助数据帧 df <- data.frame( a1 = c(1,2,3), a2 = c(2,3,4), b1 = c(4,5,6), b2 = c(5,6,7) ) aux <- data.frame( id = c("a1", "a2", "b1", "b2"), group = c("a", "a", "b", "b") ) df您可以尝试split。默认情况下根据列名id/模式将

这是我的意见。一个包含n列的数据帧,以及一个将每个id分配给组的辅助数据帧

df <- data.frame(
  a1 = c(1,2,3), 
  a2 = c(2,3,4), 
  b1 = c(4,5,6), 
  b2 = c(5,6,7)
)
aux <- data.frame(
  id = c("a1", "a2", "b1", "b2"),
  group = c("a", "a", "b", "b")
)

df您可以尝试
split。默认情况下
根据列名id/模式将数据框拆分为子数据框列表,然后对每个子数据框应用
行和

# create a group variable by columns
g <- aux$group[match(names(df), aux$id)]
g
# [1] a a b b
# Levels: a b

as.data.frame(lapply(split.default(df, g), rowSums))

#  a  b
#1 3  9
#2 5 11
#3 7 13
#按列创建组变量

g这里是一个非常通用的base R方法

# define your groups
myGroups <- c("a", "b")

# get the column positions of your groups, given aux data.frame
myCols <- lapply(unique(aux$group), function(i) which(aux$group == i))

# get the data.frame of the row sums for each colum group
dfNew <- setNames(data.frame(lapply(myGroups, function(i) rowSums(df[i]))), myGroups)

这比@psidom的答案要长一点,但应该非常直截了当。在第二行中,aux上使用了
lappy
,以应用
,该
查找每个组元素的列位置,并返回列表中的位置。在第三行,
lappy
rowSums
应用于设置为的每个组,并返回一个列表。此列表将转换为带有
data.frame
的data.frame,并使用
setNames

为避免拆分数据帧和通过代码传递长数据帧列表,您只需使用索引即可:

cols <- split(aux$id, aux$group)

data.frame(lapply(cols, function(i) rowSums(df[i])))

cols
grep(i,name(df))
是危险的。最好使用给出的映射。抱歉@Pierrelaffortune,今天有点厚。危险是什么?@lmo想想额外的“ba”组,你已经完蛋了<代码>grep
在这里甚至不是必需的。在这个逻辑中,我选择了
match(I,names(df),0)
,它狭隘地创建了一个在现实世界中很容易中断的解决方案。如果没有其他选择,并且用例是严格的,那就可以了。但OP提供了一种解决歧义的映射;你的回答完全忽略了它。我不明白为什么你要创建
g
,而OP已经有了
aux$group
@Frank,只是为了防止
id
列与
df
的列名顺序不同,匹配项会对它们重新排序。在OP的例子中,可能不需要这样做。
dfNew
  a  b
1 3  9
2 5 11
3 7 13
cols <- split(aux$id, aux$group)

data.frame(lapply(cols, function(i) rowSums(df[i])))