Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/backbone.js/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
按r中的连续值分组_R_Dplyr - Fatal编程技术网

按r中的连续值分组

按r中的连续值分组,r,dplyr,R,Dplyr,我有一个来自支持票务系统的数据集,它记录了代理在分类和响应客户请求时的每次点击。系统为每个点击分配一个新的SythyId,但是一个代理将点击几个字段,在表中触发多个行,在它们认为是一个“交互”的情况下。p> 我的目标是通过对每组中的第一个和最后一个modify_时间值进行差异计算来计算每个交互的处理时间 我现在被卡住了,因为一个代理人一整天都要和一个案子进行多次互动 下面是一个示例数据帧: hist_id <- c(1234, 2345, 3456, 4567, 5678, 6789, 7

我有一个来自支持票务系统的数据集,它记录了代理在分类和响应客户请求时的每次点击。系统为每个点击分配一个新的SythyId,但是一个代理将点击几个字段,在表中触发多个行,在它们认为是一个“交互”的情况下。p> 我的目标是通过对每组中的第一个和最后一个modify_时间值进行差异计算来计算每个交互的处理时间

我现在被卡住了,因为一个代理人一整天都要和一个案子进行多次互动

下面是一个示例数据帧:

hist_id <- c(1234, 2345, 3456, 4567, 5678, 6789, 7890)
case_id <- c(1, 1, 1, 1, 1, 1, 1)
agent_name <- c("John", "John", "John", "Paul", "Paul", "John", "John")
modify_time <- as.POSIXct(c(1510095120, 1510095180, 1510095240, 1510098600, 1510098720, 1510135200, 1510135320), origin = "1970-01-01")
df <- data.frame(hist_id, case_id, agent_name, modify_time)
这就给了我:

    # A tibble: 7 x 7
# Groups:   case_id, agent_name [2]
  hist_id case_id agent_name         modify_time               first                last       diff
    <dbl>   <dbl>     <fctr>              <dttm>              <dttm>              <dttm>     <time>
1    1234       1       John 2017-11-07 16:52:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
2    2345       1       John 2017-11-07 16:53:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
3    3456       1       John 2017-11-07 16:54:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
4    4567       1       Paul 2017-11-07 17:50:00 2017-11-07 17:50:00 2017-11-07 17:52:00   120 secs
5    5678       1       Paul 2017-11-07 17:52:00 2017-11-07 17:50:00 2017-11-07 17:52:00   120 secs
6    6789       1       John 2017-11-08 04:00:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
7    7890       1       John 2017-11-08 04:02:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
#一个tible:7 x 7
#组:案例id、代理名称[2]
历史id案例id代理名称修改时间首末差异
11234约翰2017-11-07 16:52:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200秒
22345约翰2017-11-07 16:53:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200秒
约翰2017-11-07 16:54:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200秒
保罗2017-11-07 17:50:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120秒
5 5678 1保罗2017-11-07 17:52:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120秒
6 6789 1约翰2017-11-08 04:00:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200秒
7 7890 1约翰2017-11-08 04:02:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200秒
返回John的真实第一次和最后一次修改时间。但是,我需要对case_id和agent_name的连续匹配进行分组,以便考虑Paul的交互。这里记录了三种互动:一种来自约翰,一种来自保罗,另一种来自约翰

所需的输出如下:

    # A tibble: 7 x 7
# Groups:   case_id, agent_name [2]
  hist_id case_id agent_name         modify_time               first                last       diff
    <dbl>   <dbl>     <fctr>              <dttm>              <dttm>              <dttm>     <time>
1    1234       1       John 2017-11-07 16:52:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120 secs
2    2345       1       John 2017-11-07 16:53:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120 secs
3    3456       1       John 2017-11-07 16:54:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120 secs
4    4567       1       Paul 2017-11-07 17:50:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120 secs
5    5678       1       Paul 2017-11-07 17:52:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120 secs
6    6789       1       John 2017-11-08 04:00:00 2017-11-08 04:00:00 2017-11-08 04:02:00 120 secs
7    7890       1       John 2017-11-08 04:02:00 2017-11-08 04:00:00 2017-11-08 04:02:00 120 secs
#一个tible:7 x 7
#组:案例id、代理名称[2]
历史id案例id代理名称修改时间首末差异
11234约翰2017-11-07 16:52:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120秒
22345约翰2017-11-07 16:53:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120秒
约翰2017-11-07 16:54:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120秒
保罗2017-11-07 17:50:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120秒
5 5678 1保罗2017-11-07 17:52:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120秒
6 6789 1约翰2017-11-08 04:00:00 2017-11-08 04:00:00 2017-11-08 04:02:00 120秒
7 7890 1约翰2017-11-08 04:02:00 2017-11-08 04:00:00 2017-11-08 04:02:00 120秒

这里是一种tidyverse方法,它通过
处理集群标识
以及
案例id
代理名称
来划分组:

按顺序排列所有点击,每次
hist\u id
序列遇到到新的
agent\u名称的转换时,生成一个新的id标志
cumsum
这些标志用于为每个案例、每个代理、每个集群处理区块生成唯一的
prcl\U id
。有了这三个id,您就可以在所需分区内运行所选的变体

df %>% 
    arrange(hist_id) %>%  # to ensure there are no wrinkles
    mutate(ag_chg_flg = ifelse(lag(agent_name) != agent_name, 1, 0) %>%
               coalesce(0) # to reassign the first click in a case_id to 0 (from NA)
           ) %>% 
    group_by(case_id, agent_name) %>%  
    mutate(prcl_id = cumsum(ag_chg_flg) + 1) %>%  # generate the proc_clst_id (starting at 1) 
    group_by(case_id, agent_name, prcl_id) %>%  # group by the complete composite id
    mutate(first = first(modify_time),
           last = last(modify_time),
           diff = min(difftime(last, first))
           )
这让你:

#一个tible:7 x 9
#组:案例id、代理名称、prcl id[3]
历史id案例id代理名称修改时间间隔时间间隔
11234约翰2017-11-07 14:52:00 01 2017-11-07 14:52:00 2017-11-07 14:54:00 2分钟
22345约翰2017-11-07 14:53:00 01 2017-11-07 14:52:00 2017-11-07 14:54:00 2分钟
约翰2017-11-07 14:54:00 01 2017-11-07 14:52:00 2017-11-07 14:54:00 2分钟
保罗2017-11-07 15:50:00 12 2017-11-07 15:50:00 2017-11-07 15:52:00 2分钟
5 5678 1保罗2017-11-07 15:52:00 02 2017-11-07 15:50:00 2017-11-07 15:52:00 2分钟
6 6789约翰2017-11-08 02:00:00 12 2017-11-08 02:00:00 2017-11-08 02:00 02:00 2分钟
7 7890 1约翰2017-11-08 02:02:00 02 2017-11-08 02:00:00 2017-11-08 02:02:00 2分钟

你对典型互动的时间跨度有什么提示吗?不客气。很高兴我能帮忙。如果这个答案有用,你介意投票吗?如果没有更好的方法提交,你介意选择它作为答案吗?
df %>% 
    arrange(hist_id) %>%  # to ensure there are no wrinkles
    mutate(ag_chg_flg = ifelse(lag(agent_name) != agent_name, 1, 0) %>%
               coalesce(0) # to reassign the first click in a case_id to 0 (from NA)
           ) %>% 
    group_by(case_id, agent_name) %>%  
    mutate(prcl_id = cumsum(ag_chg_flg) + 1) %>%  # generate the proc_clst_id (starting at 1) 
    group_by(case_id, agent_name, prcl_id) %>%  # group by the complete composite id
    mutate(first = first(modify_time),
           last = last(modify_time),
           diff = min(difftime(last, first))
           )
# A tibble: 7 x 9
# Groups:   case_id, agent_name, prcl_id [3]
  hist_id case_id agent_name         modify_time ag_chg_flg prcl_id               first                last   diff
    <dbl>   <dbl>     <fctr>              <dttm>      <dbl>   <dbl>              <dttm>              <dttm> <time>
1    1234       1       John 2017-11-07 14:52:00          0       1 2017-11-07 14:52:00 2017-11-07 14:54:00 2 mins
2    2345       1       John 2017-11-07 14:53:00          0       1 2017-11-07 14:52:00 2017-11-07 14:54:00 2 mins
3    3456       1       John 2017-11-07 14:54:00          0       1 2017-11-07 14:52:00 2017-11-07 14:54:00 2 mins
4    4567       1       Paul 2017-11-07 15:50:00          1       2 2017-11-07 15:50:00 2017-11-07 15:52:00 2 mins
5    5678       1       Paul 2017-11-07 15:52:00          0       2 2017-11-07 15:50:00 2017-11-07 15:52:00 2 mins
6    6789       1       John 2017-11-08 02:00:00          1       2 2017-11-08 02:00:00 2017-11-08 02:02:00 2 mins
7    7890       1       John 2017-11-08 02:02:00          0       2 2017-11-08 02:00:00 2017-11-08 02:02:00 2 mins