R 正则滚动和与均值

R 正则滚动和与均值,r,dplyr,data.table,lubridate,R,Dplyr,Data.table,Lubridate,我正在尝试使用lubridate、data.table和dplyr创建一个必须每季度运行的R脚本。我正在尽可能地自动化它,以便只需更改目录即可运行它。基本上,我的问题是我需要从另一个数据集(dataseta)创建一个数据集。此数据集看起来像 ID fromdate todate Quarters Cost Location 1: 29 2015-03-08 2015-03-25 2015Q1 13747.12 Orlando 2: 2

我正在尝试使用
lubridate
data.table
dplyr
创建一个必须每季度运行的R脚本。我正在尽可能地自动化它,以便只需更改目录即可运行它。基本上,我的问题是我需要从另一个数据集(dataseta)创建一个数据集。此数据集看起来像

      ID   fromdate     todate Quarters        Cost Location
  1:  29 2015-03-08 2015-03-25   2015Q1    13747.12  Orlando
  2:  29 2015-04-08 2015-04-08   2015Q2     1555.08    Miami
  3:  29 2015-07-08 2015-07-08   2015Q3      961.51    Miami
  4:  29 2015-09-23 2015-09-24   2015Q3     3492.00  Orlando
  5:  29 2015-09-24 2015-10-03   2015Q4     9948.56  Orlando
 ---                                                        
593: 174 2017-03-01 2017-03-31   2017Q1     2794.26  Orlando
594: 174 2017-04-05 2017-04-05   2017Q2      425.86    Miami
595: 174 2017-04-03 2017-04-28   2017Q2     2400.24  Orlando
596: 174 2017-05-01 2017-05-31   2017Q2     2805.46  Orlando
597: 174 2017-06-02 2017-06-30   2017Q2     2603.51  Orlando
其中一个
ID
s的扩展是

    ID   fromdate     todate Quarters CLM_PMT_AMT Location
 1: 29 2015-03-08 2015-03-25   2015Q1    13747.12  Orlando
 2: 29 2015-04-08 2015-04-08   2015Q2     1555.08    Miami
 3: 29 2015-07-08 2015-07-08   2015Q3      961.51    Miami
 4: 29 2015-09-23 2015-09-24   2015Q3     3492.00  Orlando
 5: 29 2015-09-24 2015-10-03   2015Q4     9948.56  Orlando
 6: 29 2015-10-03 2015-10-03   2015Q4       39.33  Orlando
 7: 29 2015-10-05 2015-10-05   2015Q4      192.26    Miami
 8: 29 2015-10-11 2015-10-14   2015Q4     9478.80  Orlando
 9: 29 2015-10-15 2015-10-27   2015Q4    20655.46  Orlando
10: 29 2015-10-06 2015-10-31   2015Q4     1061.70  Orlando
11: 29 2015-11-03 2015-11-03   2015Q4      319.29  Orlando
12: 29 2015-11-05 2015-11-05   2015Q4      894.58    Miami
13: 29 2015-11-05 2015-11-28   2015Q4    21678.48  Orlando
14: 29 2015-12-06 2015-12-06   2015Q4      248.98    Miami
15: 29 2015-12-16 2015-12-25   2015Q4     9948.56  Orlando
16: 29 2015-12-01 2015-12-29   2015Q4     1417.91  Orlando
17: 29 2015-12-30 2016-01-01   2016Q1     9514.55  Orlando
18: 29 2016-01-05 2016-01-10   2016Q1     9682.28  Orlando
19: 29 2016-01-25 2016-01-27   2016Q1     6764.50  Orlando
20: 29 2016-01-03 2016-01-30   2016Q1     1564.87  Orlando
21: 29 2016-02-15 2016-02-17   2016Q1     3908.10  Orlando
22: 29 2016-02-02 2016-02-27   2016Q1     1886.87  Orlando
23: 29 2016-03-03 2016-03-03   2016Q1       76.58    Miami
24: 29 2016-03-03 2016-03-06   2016Q1     3213.78  Orlando
25: 29 2016-03-14 2016-03-23   2016Q1     4871.14  Orlando
我试图用这个数据集做的是按滚动年按季度计算成本的总和和平均值。例如,
ID=29
Quarters=2015Q4
将是
Quarters=2015Q1
Quarters=2015Q4
的成本的总和和平均值,对于
Quarters=2016Q2
,总和和平均值应该是
Quarters=2015Q3
Quarters=2016Q2
。这应该适用于每个
ID
、每个
位置
、每个
季度
。我明白了,我可能不得不使用类似

A %>% 
group_by(ID, Quarters, Location) %>%
...

但我有一个问题,不是所有的
季度都代表每个
ID
。有什么建议吗?我真是束手无策

您可以使用
tidyr::complete
添加缺少的季度。比如说

library(tidyverse)
dt %>% 
  mutate(Quarters = as.factor(Quarters)) %>% 
  group_by(ID, Location, Quarters) %>% 
  summarise_if(is.numeric, funs(mean(., na.rm = TRUE))) %>% 
  complete(ID, Location, Quarters, fill=list(CLM_PMT_AMT=0)) %>% 
  mutate_if(is.numeric, funs(roll = zoo::rollmeanr(., k=4, na.pad = TRUE)))
# # A tibble: 10 x 5
# # Groups: ID, Location [2]
# ID Location Quarters CLM_PMT_AMT  roll
# <int> <chr>    <fctr>         <dbl> <dbl>
#   1    29 Miami    2015Q1           0      NA
# 2    29 Miami    2015Q2        1555      NA
# 3    29 Miami    2015Q3         962      NA
# 4    29 Miami    2015Q4         445     740
# 5    29 Miami    2016Q1          76.6   760
# 6    29 Orlando  2015Q1       13747      NA
# 7    29 Orlando  2015Q2           0      NA
# 8    29 Orlando  2015Q3        3492      NA
# 9    29 Orlando  2015Q4        8283    6381
# 10    29 Orlando  2016Q1        5176    4238
库(tidyverse)
dt%>%
变异(四分之一=as.因子(四分之一))%>%
分组依据(ID、位置、季度)%>%
如果(是数值,funs(平均值(,na.rm=TRUE))%,则汇总%>%
完成(ID、位置、季度、填充=列表(CLM\U PMT\U AMT=0))%>%
如果(is.numeric,funs(roll=zoo::rollmeanr(,k=4,na.pad=TRUE))发生变异
##A tible:10 x 5
##组:ID、位置[2]
#ID位置季度CLM\U付款金额卷
#                
#1 29迈阿密2015Q1 0北美
#2 29迈阿密2015Q2 1555北美
#3 29迈阿密2015Q3 962北美
#4 29迈阿密2015Q4 445 740
#5 29迈阿密2016Q1 76.6 760
#6 29奥兰多2015年第一季度13747北美
#7 29奥兰多2015Q2 0北美
#8 29奥兰多2015年第三季度3492北美
#9 29奥兰多2015年第4季度8283 6381
#10 29奥兰多2016Q1 5176 4238
这个怎么样

library(data.table)
library(mltools)

dt <- data.table(
  id = c(1, 1, 1, 1, 1,
         2, 2, 2, 2),
  somedate = as.Date(c("2014-2-1", "2014-2-28", "2014-9-30", "2014-12-11", "2015-5-15", 
                       "2014-8-11", "2015-6-30", "2015-6-30", "2015-12-1")),
  value = c(1, 2, 3, 4, 5,
            10, 20, 30, 40)
)
dt
   id   somedate value YearQuarter
1:  1 2014-02-01     1     2014 Q1
2:  1 2014-02-28     2     2014 Q1
3:  1 2014-09-30     3     2014 Q3
4:  1 2014-12-11     4     2014 Q4
5:  1 2015-05-15     5     2015 Q2
6:  2 2014-08-11    10     2014 Q3
7:  2 2015-06-30    20     2015 Q2
8:  2 2015-06-30    30     2015 Q2
9:  2 2015-12-01    40     2015 Q4

# Insert YearQuarter
dt[, YearQuarter := mltools::date_factor(somedate, type = "yearquarter")]

# Build table of all possible (id, YearQuarter) pairs based on the levels of dt$YearQuarter
temp <- CJ(id = unique(dt$id), YearQuarter = levels(dt$YearQuarter))

# Aggregate dt to unique (id, YearQuarter) pairs
dt_aggregated <- dt[, list(value_sum = sum(value)), keyby=list(id, YearQuarter)]

# Determine the value_sum in each quarter for each id, via join to temp
result <- dt_aggregated[temp, on=c("id", "YearQuarter")]
result[is.na(value_sum), value_sum := 0]

# Rolling sums by id
result[, RollingAnnualSum := Reduce(`+`, shift(x = value_sum, n = 0:3, fill = 0, type = "lag")), by="id"]

result
    id YearQuarter value_sum RollingAnnualSum
 1:  1     2014 Q1         3                3
 2:  1     2014 Q2         0                3
 3:  1     2014 Q3         3                6
 4:  1     2014 Q4         4               10
 5:  1     2015 Q1         0                7
 6:  1     2015 Q2         5               12
 7:  1     2015 Q3         0                9
 8:  1     2015 Q4         0                5
 9:  2     2014 Q1         0                0
10:  2     2014 Q2         0                0
11:  2     2014 Q3        10               10
12:  2     2014 Q4         0               10
13:  2     2015 Q1         0               10
14:  2     2015 Q2        50               60
15:  2     2015 Q3         0               50
16:  2     2015 Q4        40               90
库(data.table)
图书馆(mltools)

dt使用
zoo::rollmean
zoo::rollsum
。这里有很多问题,如果你在R标签上搜索“[R]滚动平均值”,你不想按季度分组,而是想按ID和位置分组,你需要滚动季度。如果数据集中完全缺少2015Q3,这是否有效?(不仅仅是缺少一个ID)。@Ben No。但是,您可以提供所需的因子级别,例如,
因子(c(“2015Q1”,“2015Q3”),级别=粘贴0(rep(2015:2016,每个=4),“Q”,1:4))