如何在R中基于最近匹配时间压缩数据帧

如何在R中基于最近匹配时间压缩数据帧,r,time,match,datetime-format,R,Time,Match,Datetime Format,我有一个数据帧,当前包含两个HH:MM:SS格式的“时间”列。我希望压缩此数据帧,以便每个唯一的“id”值只有一行。我希望为每个唯一的“id”值保留行,该值具有与“time2”值最匹配的“time1”值。但是,“time1”必须大于“time2” 下面是一个简单的例子: > dput(df) structure(list(id = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L), count = c(23

我有一个数据帧,当前包含两个HH:MM:SS格式的“时间”列。我希望压缩此数据帧,以便每个唯一的“id”值只有一行。我希望为每个唯一的“id”值保留行,该值具有与“time2”值最匹配的“time1”值。但是,“time1”必须大于“time2”

下面是一个简单的例子:

> dput(df)
structure(list(id = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 
3L, 3L, 4L, 4L, 4L, 4L), count = c(23L, 23L, 23L, 23L, 45L, 45L, 
45L, 45L, 67L, 67L, 67L, 67L, 88L, 88L, 88L, 88L), time1 = structure(c(1L, 
1L, 1L, 1L, 2L, 2L, 2L, 2L, 4L, 4L, 4L, 4L, 3L, 3L, 3L, 3L), .Label = c("00:13:00", 
"01:13:00", "07:18:00", "18:14:00"), class = "factor"), time2 = structure(c(4L, 
1L, 2L, 3L, 4L, 1L, 2L, 3L, 4L, 1L, 2L, 3L, 4L, 1L, 2L, 3L), .Label = c("00:00:00", 
"06:00:00", "12:00:00", "18:00:00"), class = "factor"), afn = c(3.36, 
0.63, 1.77, 3.89, 3.36, 0.63, 1.77, 3.89, 3.36, 0.63, 1.77, 3.89, 
3.36, 0.63, 1.77, 3.89), dfn = c(201.67, 157.27, 103.55, 191.41, 
201.67, 157.27, 103.55, 191.41, 201.67, 157.27, 103.55, 191.41, 
201.67, 157.27, 103.55, 191.41)), .Names = c("id", "count", "time1", 
"time2", "afn", "dfn"), class = "data.frame", row.names = c(NA, 
-16L))

> df
   id count    time1    time2  afn    dfn
1   1    23 00:13:00 18:00:00 3.36 201.67
2   1    23 00:13:00 00:00:00 0.63 157.27
3   1    23 00:13:00 06:00:00 1.77 103.55
4   1    23 00:13:00 12:00:00 3.89 191.41
5   2    45 01:13:00 18:00:00 3.36 201.67
6   2    45 01:13:00 00:00:00 0.63 157.27
7   2    45 01:13:00 06:00:00 1.77 103.55
8   2    45 01:13:00 12:00:00 3.89 191.41
9   3    67 18:14:00 18:00:00 3.36 201.67
10  3    67 18:14:00 00:00:00 0.63 157.27
11  3    67 18:14:00 06:00:00 1.77 103.55
12  3    67 18:14:00 12:00:00 3.89 191.41
13  4    88 07:18:00 18:00:00 3.36 201.67
14  4    88 07:18:00 00:00:00 0.63 157.27
15  4    88 07:18:00 06:00:00 1.77 103.55
16  4    88 07:18:00 12:00:00 3.89 191.41
在上述情况下,我想以这个矩阵结束:

id  count   time1       time2       afn     dfn
1   23      00:13:00    00:00:00    0.63    157.27
2   45      01:13:00    00:00:00    0.63    157.27
3   67      18:14:00    18:00:00    3.36    201.67
4   88      07:18:00    06:00:00    1.77    103.55

我以前使用过ddply()函数来压缩数据帧,但没有使用合并的匹配规则。我必须应用这是一个有很多列的数据框架(比这里给出的简单示例多得多),所以任何关于如何做到这一点的建议都是非常棒的。任何帮助都将不胜感激。非常感谢

下面是一个使用强大的
dplyr
包的方法:

library(dplyr)

(df %.%
   mutate(timeDiff = as.integer(strptime(time1, "%X") - strptime(time2, "%X")),
          posDiff = timeDiff >= 0) %.%
   filter(posDiff) %.%
   group_by(id) %.%
   filter(min(timeDiff) == timeDiff))[names(df)]

#   id count    time1    time2  afn    dfn
# 1  1    23 00:13:00 00:00:00 0.63 157.27
# 2  2    45 01:13:00 00:00:00 0.63 157.27
# 3  3    67 18:14:00 18:00:00 3.36 201.67
# 4  4    88 07:18:00 06:00:00 1.77 103.55

这里有一些解决方案

1)ave这使用时间
时间
以及
子集
ave
从R的基础:

library(chron)

delta <- as.vector(times(df$time1) - times(df$time2))
df2 <- subset(df, delta > 0)
df2[ave(delta, df2$id, FUN = function(delta) delta == min(delta)) == 1, ]
3)sqldf

library(sqldf)

sqldf("select *, min(strftime('%s', time1) - strftime('%s', time2)) delta
  from (select * from df where strftime('%s', time1) > strftime('%s', time2))
  group by id")[seq_along(df)]
或者我们在R中计算
delta
,然后使用
sqldf

library(sqldf)
library(chron)

df2 = transform(df, delta = as.vector(times(time1) - times(time2)))

sqldf("select *, min(delta) delta
  from (select * from df2 where delta > 0)
  group by id")[-ncol(df2)]
4)数据表

library(data.table)
library(chron)

DT <- data.table(df)
DT[, delta := times(time1) - times(time2)
 ][delta > 0
 ][, .SD[delta == min(delta)], by = id
 ][, seq_along(df), with = FALSE]
库(data.table)
图书馆(计时)
DT 0
][,.SD[delta==min(delta)],by=id
][,顺时针(df),带=假]

添加了其他解决方案。已更正
子集
语句。较小的改进。

使用
ddply
merge
的方法。(假设“最近匹配时间”是
difftime
s的最小绝对值)


t1我想指出,订购表明
18:00:00
00:00:00
@G之前。Grothendieck:非常感谢您提供了许多不同的选择。dplyr太棒了!只是一件小事:它应该读取代码行3上的
df2 0)
而不是
子集(df2…
?非常感谢你的帮助!是的,我现在已经修好了。谢谢。@Sven:也非常感谢dplyr的建议。我必须对这个包裹做更多的调查。@Julien:谢谢你的回答。在代码中定义
数据的地方应该有额外的一行吗?哦,不,对不起,它是“df”而不是“datas”事实上,请注意,strtime输出包括今天的日期,因此如果碰巧t1设置在午夜之前,然后t2设置在午夜之后,那么t1和t2将具有不同的日期,而如果它们在同一天运行,则具有相同的日期。当然,这是极不可能的,但这是可能的。
library(data.table)
library(chron)

DT <- data.table(df)
DT[, delta := times(time1) - times(time2)
 ][delta > 0
 ][, .SD[delta == min(delta)], by = id
 ][, seq_along(df), with = FALSE]
t1 <- strptime(df$time1, "%H:%M:%S")
t2 <- strptime(df$time2, "%H:%M:%S")
df$min.diff <- abs(as.numeric(difftime(t1, t2, units='mins')))

d1 <- ddply(df, .(id), summarize, min.diff = min(min.diff))

> merge(df, d1, by = c("id", "min.diff"))
  id min.diff count    time1    time2  afn    dfn
1  1       13    23 00:13:00 00:00:00 0.63 157.27
2  2       73    45 01:13:00 00:00:00 0.63 157.27
3  3       14    67 18:14:00 18:00:00 3.36 201.67
4  4       78    88 07:18:00 06:00:00 1.77 103.55