R 统计不同时间线中发生的次数_R_Dplyr_Tidyverse

R 统计不同时间线中发生的次数

R 统计不同时间线中发生的次数,r,dplyr,tidyverse,R,Dplyr,Tidyverse,我有这样的数据 library(dplyr) library(tidyverse) df <- tibble(mydate = as.Date(c("2019-05-11 23:01:00", "2019-05-11 23:02:00", "2019-05-11 23:03:00", "2019-05-11 23:04:00", "20

我有这样的数据

library(dplyr)
library(tidyverse)

df <- tibble(mydate = as.Date(c("2019-05-11 23:01:00", "2019-05-11 23:02:00", "2019-05-11 23:03:00", "2019-05-11 23:04:00",
                                "2019-05-12 23:05:00", "2019-05-12 23:06:00", "2019-05-12 23:07:00", "2019-05-12 23:08:00",
                                "2019-05-13 23:09:00", "2019-05-13 23:10:00", "2019-05-13 23:11:00", "2019-05-13 23:12:00",
                                "2019-05-14 23:13:00", "2019-05-14 23:14:00", "2019-05-14 23:15:00", "2019-05-14 23:16:00",
                                "2019-05-15 23:17:00", "2019-05-15 23:18:00", "2019-05-15 23:19:00", "2019-05-15 23:20:00")),
               myval = c(0, NA, 1500, 1500,
                         1500, 1500, NA, 0,
                         0, 0, 1100, 1100,
                         1100, 0, 200, 200,
                         1100, 1100, 1100, 0
               ))

我想将每个相同的值除以它出现的计数。但是，如果在这个数字值1100之间，出现另一个数字或NA，然后重新出现值1100，我想将其计算为可分离的

# just replace values [0,1] with NA
df$myval[df$myval >= 0 & df$myval <= 1] <- NA

df <- df %>%
    group_by(myval) %>%
    mutate(counts = sum(myval == myval)) %>%
    mutate(result = (myval  / counts))

目前的结果是：

 mydate     myval counts result
   <date>     <dbl>  <int>  <dbl>
 1 2019-05-11    NA     NA    NA 
 2 2019-05-11    NA     NA    NA 
 3 2019-05-11  1500      4   375 
 4 2019-05-11  1500      4   375 
 5 2019-05-12  1500      4   375 
 6 2019-05-12  1500      4   375 
 7 2019-05-12    NA     NA    NA 
 8 2019-05-12    NA     NA    NA 
 9 2019-05-13    NA     NA    NA 
10 2019-05-13    NA     NA    NA 
11 2019-05-13  1100      6   183.
12 2019-05-13  1100      6   183.
13 2019-05-14  1100      6   183.
14 2019-05-14    NA     NA    NA 
15 2019-05-14   200      2   100 
16 2019-05-14   200      2   100 
17 2019-05-15  1100      6   183.
18 2019-05-15  1100      6   183.
19 2019-05-15  1100      6   183.
20 2019-05-15    NA     NA    NA

但是，正如您看到的，对于出现两次的值1100，它会将其计数6次。我想数三次，然后再数三次

例如，值1500出现4次，所以我除以1500/4。

1100应该被3除，然后再被3除。

你可以使用运行长度编码，这基本上是一个累积和，当它看到另一个值时会重新启动

rle(df$myval) %$%
  tibble(rle = lengths,
         myval = values,
         avg = values / rle)
# A tibble: 10 x 3
#     rle myval   avg
#    <int> <dbl> <dbl>
# 1     1     0    0 
# 2     1    NA   NA 
# 3     4  1500  375 
# 4     1    NA   NA 
# 5     3     0    0 
# 6     3  1100  367.
# 7     1     0    0 
# 8     2   200  100 
# 9     3  1100  367.
# 10     1     0    0

使用此运算符%>%而不是您所使用的%$%，会在x[i]中出现错误：closure类型的对象不是subsettableI我使用了rYes，它不能直接使用%>%。您可以使用rledf$myval%>%{tibbleLength=.$Length，values=.$values}使其工作，但这很容易混淆。存储在中间变量而不是管道中是正确的。