R 如何对时间序列进行子采样（GPS位置的突发）_R_Time Series_Subsampling

R 如何对时间序列进行子采样（GPS位置的突发）

R 如何对时间序列进行子采样（GPS位置的突发）,r,time-series,subsampling,R,Time Series,Subsampling,我的时间序列如下： **Date_time** 2018-06-26 17:19:30 2018-06-26 17:20:40 2018-06-26 17:20:41 2018-06-26 17:20:42 [...] 2018-06-26 17:21:36 2018-06-26 17:21:37 2018-06-26 17:21:38 2018-06-26 17:21:39 2018-06-26 17:23:15 我想对其进行二次采样，例如，我获得了以下时间序列，即每秒删除记录的位置，以便大

我的时间序列如下：

**Date_time**
2018-06-26 17:19:30
2018-06-26 17:20:40
2018-06-26 17:20:41
2018-06-26 17:20:42
[...]
2018-06-26 17:21:36
2018-06-26 17:21:37
2018-06-26 17:21:38
2018-06-26 17:21:39
2018-06-26 17:23:15

我想对其进行二次采样，例如，我获得了以下时间序列，即每秒删除记录的位置，以便大致保持1个位置/分钟

**Date_time**
2018-06-26 17:19:30
2018-06-26 17:20:40
2018-06-26 17:21:39
2018-06-26 17:23:15

我编写了以下代码，但没有得到预期的时间序列

tab_subsampled <- tab %>%
   mutate(Date_Time = ymd_hms(Date_Time), 
          year = year(Date_Time), month = month(Date_Time), day = day(Date_Time), 
          hour = hour(Date_Time), minute = minute(Date_Time), second = second(Date_Time)) %>% 
   group_by(year, month, day, hour, minute) %>%
   slice(n()) %>% 
   ungroup()

我非常感谢你的帮助，非常感谢

您可以在整个df上使用substr和dplyr。然后可以在分钟后剪切所有内容，然后只允许唯一值，这样每分钟只有一个数据点

library(dplyr)

#Date_time
time<-c("2018-06-26 17:19:30",
        "2018-06-26 17:20:40",
        "2018-06-26 17:20:41",
        "2018-06-26 17:20:42",
        "2018-06-26 17:21:39",
        "2018-06-26 17:23:15")

time<-as.data.frame(time)
colnames(time) = ("Date_time")

time<-time %>%
  mutate(Date_time = substr(Date_time, 1, 13))

Date.Time_only_minutes<-unique(time$Date_time);Date.Time_only_minutes

简单的样品也可以

library(lubridate)

time<-c("2018-06-26 17:19:30",
        "2018-06-26 17:20:40",
        "2018-06-26 17:20:41",
        "2018-06-26 18:20:42",
        "2018-06-26 17:21:39",
        "2018-06-26 17:23:15",
        "2018-07-26 17:20:30",
        "2018-07-26 17:20:40",
        "2018-08-26 18:20:41",
        "2018-08-26 18:20:42",
        "2018-09-26 17:21:39",
        "2018-09-26 17:21:15")

time<-as.data.frame(time)
                  time
1  2018-06-26 17:19:30
2  2018-06-26 17:20:40
3  2018-06-26 17:20:41
4  2018-06-26 18:20:42
5  2018-06-26 17:21:39
6  2018-06-26 17:23:15
7  2018-07-26 17:20:30
8  2018-07-26 17:20:40
9  2018-08-26 18:20:41
10 2018-08-26 18:20:42
11 2018-09-26 17:21:39
12 2018-09-26 17:21:15


set.seed(1)
time %>% group_by(date(time), hour(time), minute(time)) %>%
  sample_n(1) %>% ungroup() %>%
  select(time)
# A tibble: 8 x 1
  time               
  <chr>              
1 2018-06-26 17:19:30
2 2018-06-26 17:20:41
3 2018-06-26 17:21:39
4 2018-06-26 17:23:15
5 2018-06-26 18:20:42
6 2018-07-26 17:20:30
7 2018-08-26 18:20:41
8 2018-09-26 17:21:39

注意，您必须在group_by语句中添加其他ID/分组变量，才能在这些组中执行此操作。

谢谢您的回答。然而，它并没有像我所希望的那样起作用。2018-06-26 17:19:30 2018-06-26 17:20:40 2018-06-26 17:20:41 2018-06-26 17:20:42[…]2018-06-26 17:21:39 2018-06-26 17:23:15谢谢你的回答。然而，它给出了与我的代码相同的结果。事实上，我希望每分钟保持一个位置，但也希望连续位置之间的时间间隔尽可能接近60秒。我在我的示例中添加了额外的行，以便您能够更好地理解我的意思，希望是“17:21:36”；17:21:37';'17:21:38'; 17:21:39. 使用从17:20:41到17:21:39的完整时间序列，每秒钟记录一次位置，您的代码每分钟随机选择一个位置，而不是以尽可能接近60秒的间隔。请参阅修订的答案。注意，您必须在group_by语句中添加其他ID/分组变量，才能在这些组中执行此操作。谢谢您的回答。然而，它给出了与我的代码相同的结果。事实上，我希望每分钟保持一个位置，但也希望连续位置之间的时间间隔尽可能接近60秒。我在我的示例中添加了额外的行，以便您能够更好地理解我的意思，希望是“17:21:36”；17:21:37';'17:21:38'; 17:21:39.