在R中重复筛选数据帧的快速方法_R_Dataframe_Filtering_Plyr

在R中重复筛选数据帧的快速方法

r dataframe

在R中重复筛选数据帧的快速方法,r,dataframe,filtering,plyr,R,Dataframe,Filtering,Plyr,我有一个数据帧，它由一系列100K+的观测值组成，每个观测值都有一个POSIXt时间戳。观察结果按日期/时间顺序排列。观测之间的时间间隔各不相同。我需要在数据框中创建一个新的向量，每个观察值的值是观察数，在观察后的5分钟内，满足一些标准（在下面的示例中，目标向量的值必须为TRUE。在实际问题中，标准更复杂，并且取决于数据帧中多个向量的值）目前，以下示例的性能非常糟糕： library(plyr) set.seed(1) observations = 1000 startTime = Sys.t

我有一个数据帧，它由一系列100K+的观测值组成，每个观测值都有一个POSIXt时间戳。观察结果按日期/时间顺序排列。观测之间的时间间隔各不相同。我需要在数据框中创建一个新的向量，每个观察值的值是观察数，在观察后的5分钟内，满足一些标准（在下面的示例中，目标向量的值必须为TRUE。在实际问题中，标准更复杂，并且取决于数据帧中多个向量的值）

目前，以下示例的性能非常糟糕：

library(plyr)
set.seed(1)
observations = 1000
startTime = Sys.time()

data <- as.data.frame(matrix(0, ncol = 3, nrow = observations))
colnames(data) <- c("timeStamp", "goal", "derived")
data$goal <- (runif(observations,0,1.1) > 1.0)
data$timeStamp <- runif(observations,1,90*60) + startTime
data <- arrange(data, timeStamp)
for(i in 1:nrow(data))
{
  data[i,"derived"] <- filter(data, goal == TRUE, timeStamp > data[[i,"timeStamp"]], timeStamp < (data[[i,"timeStamp"]] + (5 * 60))) %>% nrow
}
summary(data)

库（plyr）
种子（1）
观测值=1000
startTime=Sys.time（）
数据一种方法是使用非等连接：
可再现数据
observations您可能希望在数据创建之前添加一个set.seed（123），以便它始终提供相同的数据集（这应该允许更轻松地验证答案）。我认为data.table中的滚动联接包可能有助于理解此解决方案。
library(data.table)
setorder(setDT(dat), timeStamp)
dat[, derived := dat[.(goal = TRUE, ts1 = timeStamp, ts2 = timeStamp + 5 * 60), 
    on = .(goal, timeStamp >= ts1, timeStamp <= ts2), .N, by = .EACHI]$N][]
dat

                timeStamp  goal derived
   1: 2017-11-24 07:19:47  TRUE       3
   2: 2017-11-24 07:19:48 FALSE       2
   3: 2017-11-24 07:19:51 FALSE       2
   4: 2017-11-24 07:20:04 FALSE       2
   5: 2017-11-24 07:20:06 FALSE       2
  ---                                  
 996: 2017-11-24 08:49:06  TRUE       2
 997: 2017-11-24 08:49:13 FALSE       1
 998: 2017-11-24 08:49:16  TRUE       1
 999: 2017-11-24 08:49:25 FALSE       0
1000: 2017-11-24 08:49:40 FALSE       0

observations <- 1000
startTime <- as.POSIXct("2017-11-24 07:19:44")
set.seed(123L)
dat <- data.frame(
  timeStamp = runif(observations, 1, 90*60) + startTime,
  goal = runif(observations, 0, 1.1) > 1.0
)