如何在R中按分组列求和?
这是我的意见。一个包含n列的数据帧,以及一个将每个id分配给组的辅助数据帧如何在R中按分组列求和?,r,dplyr,R,Dplyr,这是我的意见。一个包含n列的数据帧,以及一个将每个id分配给组的辅助数据帧 df <- data.frame( a1 = c(1,2,3), a2 = c(2,3,4), b1 = c(4,5,6), b2 = c(5,6,7) ) aux <- data.frame( id = c("a1", "a2", "b1", "b2"), group = c("a", "a", "b", "b") ) df您可以尝试split。默认情况下根据列名id/模式将
df <- data.frame(
a1 = c(1,2,3),
a2 = c(2,3,4),
b1 = c(4,5,6),
b2 = c(5,6,7)
)
aux <- data.frame(
id = c("a1", "a2", "b1", "b2"),
group = c("a", "a", "b", "b")
)
df您可以尝试split。默认情况下
根据列名id/模式将数据框拆分为子数据框列表,然后对每个子数据框应用行和
:
# create a group variable by columns
g <- aux$group[match(names(df), aux$id)]
g
# [1] a a b b
# Levels: a b
as.data.frame(lapply(split.default(df, g), rowSums))
# a b
#1 3 9
#2 5 11
#3 7 13
#按列创建组变量
g这里是一个非常通用的base R方法
# define your groups
myGroups <- c("a", "b")
# get the column positions of your groups, given aux data.frame
myCols <- lapply(unique(aux$group), function(i) which(aux$group == i))
# get the data.frame of the row sums for each colum group
dfNew <- setNames(data.frame(lapply(myGroups, function(i) rowSums(df[i]))), myGroups)
这比@psidom的答案要长一点,但应该非常直截了当。在第二行中,aux上使用了lappy
,以应用,该查找每个组元素的列位置,并返回列表中的位置。在第三行,lappy
将rowSums
应用于设置为的每个组,并返回一个列表。此列表将转换为带有data.frame
的data.frame,并使用setNames
为避免拆分数据帧和通过代码传递长数据帧列表,您只需使用索引即可:
cols <- split(aux$id, aux$group)
data.frame(lapply(cols, function(i) rowSums(df[i])))
colsgrep(i,name(df))
是危险的。最好使用给出的映射。抱歉@Pierrelaffortune,今天有点厚。危险是什么?@lmo想想额外的“ba”组,你已经完蛋了<代码>grep
在这里甚至不是必需的。在这个逻辑中,我选择了match(I,names(df),0)
,它狭隘地创建了一个在现实世界中很容易中断的解决方案。如果没有其他选择,并且用例是严格的,那就可以了。但OP提供了一种解决歧义的映射;你的回答完全忽略了它。我不明白为什么你要创建g
,而OP已经有了aux$group
@Frank,只是为了防止id
列与df
的列名顺序不同,匹配项会对它们重新排序。在OP的例子中,可能不需要这样做。
dfNew
a b
1 3 9
2 5 11
3 7 13
cols <- split(aux$id, aux$group)
data.frame(lapply(cols, function(i) rowSums(df[i])))