R 计算数据帧中高于阈值的行数作为函数或其他列因子_R_Dataframe_Collapse_Threshold

R 计算数据帧中高于阈值的行数作为函数或其他列因子

r dataframe

R 计算数据帧中高于阈值的行数作为函数或其他列因子,r,dataframe,collapse,threshold,R,Dataframe,Collapse,Threshold,我想找到每天每个主题的行数，其中值大于11，并将其输出到数据框中进行分析。数据集很大（5000行），因此需要一个函数 subject = c(rep("A", 12), rep("B", 12)) day = c(1,1,1,1,2,2,2,2,3,3,3,3,1,1,1,1,2,2,2,2,3,3,3,3) value = c(13,14,15,5,12,9,6,14,4,2,1,2,13,14,15,5,12,9,6,14,2,2,2,3) df = data.frame(s

我想找到每天每个主题的行数，其中值大于11，并将其输出到数据框中进行分析。数据集很大（5000行），因此需要一个函数

subject = c(rep("A", 12), rep("B", 12))        
day = c(1,1,1,1,2,2,2,2,3,3,3,3,1,1,1,1,2,2,2,2,3,3,3,3)
value = c(13,14,15,5,12,9,6,14,4,2,1,2,13,14,15,5,12,9,6,14,2,2,2,3)
df = data.frame(subject, day, value)
df

   subject day value
1        A   1    13
2        A   1    14
3        A   1    15
4        A   1     5
5        A   2    12
6        A   2     9
7        A   2     6
8        A   2    14
9        A   3     4
10       A   3     2
11       A   3     1
12       A   3     2
13       B   1    13
14       B   1    14
15       B   1    15
16       B   1     5
17       B   2    12
18       B   2     9
19       B   2     6
20       B   2    14
21       B   3     2
22       B   3     2
23       B   3     2
24       B   3     3

我想要的输出是

subject.agg = c(rep("A", 3), rep("B", 3)) 
day.agg = as.factor(c(1,2,3,1,2,3))
highvalues = (c(3,2,0,3,2,0))
df.agg = data.frame(subject.agg,day.agg,highvalues)
df.agg

  subject.agg day.agg highvalues
1           A       1          3
2           A       2          2
3           A       3          0
4           B       1          3
5           B       2          2
6           B       3          0

任何帮助都将不胜感激

一个选项是从

base R

aggregate(cbind(highvalues=value>11)~., df,  sum)

或使用

数据。表格

library(data.table)
setDT(df)[value>11, .(highvalues=.N), by = .(subject, day)]
#     subject day highvalues
#1:       A   1          3
#2:       A   2          2
#3:       A   3          3
#4:       B   1          3
#5:       B   2          2
#6:       B   3          3

您可以使用

tidyverse

方式：

df %>%
  filter(value > 11) %>%
  group_by(subject,day) %>%
  mutate(highvalue = n()) %>%
  select(subject, day, highvalue) %>%
  unique()

非常感谢两位。DT解决方案非常适合我。这非常好，非常感谢。我是否可以在输出主题天数中包含任何高于11的值。i、 e第四天，受试者a的值不超过11，读数为40？谢谢@MLyall你能更新你的帖子吗？关于你期望的未来output@MLyall您可以使用“主题”、“日期”的所有独特组合进行

join

，也可以使用

if/else

谢谢，我已将问题更新为更多specific@MLyall也许

setDT（df）[value>11，（highvalues=.N），by=（受试者，天）][CJ（subject=df$subject，day=df$day，unique=TRUE），on=c（'subject'，'day'）][is.na（highvalues），highvalues:=0][]

df %>%
  filter(value > 11) %>%
  group_by(subject,day) %>%
  mutate(highvalue = n()) %>%
  select(subject, day, highvalue) %>%
  unique()