R 从选定的行和列组合中聚合数据_R_Aggregate

R 从选定的行和列组合中聚合数据

R 从选定的行和列组合中聚合数据,r,aggregate,R,Aggregate,首先，我检查了以前的答案，但没有找到具体问题的解决方案我在一列中有关于发表年份的科学论文的数据，在几个列中有是/否（1/0二进制数据），无论论文是否分配到不同的主题（在数据中，每个主题都有一个两个字母的缩写）。以下是数据集的选择： structure(list(YR = c(2016, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2014, 2014, 2014, 2014, 2014, 2014, 2013, 2013, 2012, 2012, 2

首先，我检查了以前的答案，但没有找到具体问题的解决方案

我在一列中有关于发表年份的科学论文的数据，在几个列中有是/否（1/0二进制数据），无论论文是否分配到不同的主题（在数据中，每个主题都有一个两个字母的缩写）。以下是数据集的选择：

structure(list(YR = c(2016, 2015, 2015, 2015, 2015, 2015, 2015, 
2015, 2014, 2014, 2014, 2014, 2014, 2014, 2013, 2013, 2012, 2012, 
2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2010, 2010, 2009, 
2009, 2009, 2009, 2009, 2009, 2007, 2007, 2007, 2007, 1993, 1993, 
1993, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1992, 
1992, 1992, 1992, 1992, 1991, 1991, 1991, 1991, 1991, 1991, 1991, 
1991, 1991, 1991, 1990, 1990, 1988, 1988, 1988, 1988, 1988, 1988, 
1988, 1988, 1988, 1987, 1987, 1987, 1987, 1987, 1987, 1987, 1987, 
1987, 1981, 1981, 1981, 1981, 1981, 1981, 1981, 1980, 1980, 1980, 
1980, 1980, 1979, 1979), ALL = c(0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 
1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 
0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 
0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 
0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 
1, 1, 1, 0, 1), AB = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0), BB = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0), 
BS = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 
1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 
0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0), CS = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 
0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0), DS = c(0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0), EG = c(0, 
0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 
1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 1, 0), FB = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 
0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 
0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 1, 0, 0, 0, 0, 0, 0), GB = c(0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0), KB = c(0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0), KS = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0), LS = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0), LP = c(0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0), MC = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 
1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0), NB = c(0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0), NW = c(0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0), 
SB = c(1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 
1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 1), SH = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0), VM = c(0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0), WH = c(0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 
0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 
0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 
0, 0, 0)), .Names = c("YR", "ALL", "AB", "BB", "BS", "CS", 
"DS", "EG", "FB", "GB", "KB", "KS", "LS", "LP", "MC", "NB", "NW", 
"SB", "SH", "VM", "WH"), row.names = c(NA, -99L), class = "data.frame")

以下脚本：

part <- test[,c(2:21)]
col1 <- names(test[,2:21])
col2 <- data.frame(apply(part,2,sum))
pops.n <- cbind(col1,col2)
colnames(pops.n) <- c('theme','count')

但是，我希望在“长版本”数据表中每年统计每个主题的输出：

YR   |   theme   |   count
--------------------------
1975      WH          15
1976      WH           9
1977      WH          22
...
1975      AB           3
1976      AB           9
...
1976      SB           7
1978      SB          19
1979      SB           7
...

感谢您的帮助。

这里有一种方法，可以“重塑”数据的长度，然后使用聚合对全年的主题对进行求和

newDat <- setNames(aggregate(values ~ YR + ind,
                             data=cbind(dat[1], stack(dat[-1])), sum),
                   c("YR", "theme", "count"))

这里有一种方法，可以“重塑”数据的长度，然后使用聚合对一年中的主题对进行求和

newDat <- setNames(aggregate(values ~ YR + ind,
                             data=cbind(dat[1], stack(dat[-1])), sum),
                   c("YR", "theme", "count"))

您必须使用

melt

from

restrape2

软件包，如下所示：

melted_test <- melt(test, id.vars = 'YR')

melt\u test您必须使用melt
中的restrape2
包，如下所示：
melted_test <- melt(test, id.vars = 'YR')

tidyverse这里有一种方法
library(tidyverse)
gather(dat, theme, count, -YR) %>%
       group_by(YR , theme) %>% 
       summarise(count = sum(count)) %>%
       arrange(theme)
# A tibble: 340 x 3
# Groups:   YR [17]
#      YR theme count
#   <dbl> <chr> <dbl>
# 1  1979    AB     0
# 2  1980    AB     0
# 3  1981    AB     0
# 4  1987    AB     1
# 5  1988    AB     0
# 6  1990    AB     0
# 7  1991    AB     0
# 8  1992    AB     0
# 9  1993    AB     0
#10  2007    AB     0
# ... with 330 more rows

库（tidyverse）
聚集（数据、主题、计数，-YR）%>%
分组人（年，主题）%>%
汇总（计数=总和（计数））%>%
安排（主题）
#一个tibble:340x3
#组别：YR[17]
#年度主题统计
#     
#1 1979 AB 0
#2 1980 AB 0
#3 1981 AB 0
#4 1987 AB 1
#5 1988年AB 0
#6 1990年AB 0
#7 1991 AB 0
#8 1992 AB 0
#9 1993 AB 0
#10 2007 AB 0
# ... 还有330行

以下是使用tidyverse

library(tidyverse)
gather(dat, theme, count, -YR) %>%
       group_by(YR , theme) %>% 
       summarise(count = sum(count)) %>%
       arrange(theme)
# A tibble: 340 x 3
# Groups:   YR [17]
#      YR theme count
#   <dbl> <chr> <dbl>
# 1  1979    AB     0
# 2  1980    AB     0
# 3  1981    AB     0
# 4  1987    AB     1
# 5  1988    AB     0
# 6  1990    AB     0
# 7  1991    AB     0
# 8  1992    AB     0
# 9  1993    AB     0
#10  2007    AB     0
# ... with 330 more rows

库（tidyverse）
聚集（数据、主题、计数，-YR）%>%
分组人（年，主题）%>%
汇总（计数=总和（计数））%>%
安排（主题）
#一个tibble:340x3
#组别：YR[17]
#年度主题统计
#     
#1 1979 AB 0
#2 1980 AB 0
#3 1981 AB 0
#4 1987 AB 1
#5 1988年AB 0
#6 1990年AB 0
#7 1991 AB 0
#8 1992 AB 0
#9 1993 AB 0
#10 2007 AB 0
# ... 还有330行

您还可以使用data.table
。首先将数据转换为长格式，然后按年份和变量名求和
library(data.table)
melt(setDT(df), id.vars = "YR")[, sum(value), by = .(YR, variable)]
##        YR variable V1
##   1: 2016      ALL  0
##   2: 2015      ALL  4
##   3: 2014      ALL  5
##   4: 2013      ALL  0
##   5: 2012      ALL  5
##  ---                 
## 336: 1988       WH  6
## 337: 1987       WH  2
## 338: 1981       WH  2
## 339: 1980       WH  1
## 340: 1979       WH  0

您还可以使用data.table
。首先将数据转换为长格式，然后按年份和变量名求和
library(data.table)
melt(setDT(df), id.vars = "YR")[, sum(value), by = .(YR, variable)]
##        YR variable V1
##   1: 2016      ALL  0
##   2: 2015      ALL  4
##   3: 2014      ALL  5
##   4: 2013      ALL  0
##   5: 2012      ALL  5
##  ---                 
## 336: 1988       WH  6
## 337: 1987       WH  2
## 338: 1981       WH  2
## 339: 1980       WH  1
## 340: 1979       WH  0