R 使用“"；或；在data.table中_R_Dplyr_Data.table_Sqldf

R 使用“"；或；在data.table中

R 使用“"；或；在data.table中,r,dplyr,data.table,sqldf,R,Dplyr,Data.table,Sqldf,我有一个相当大（300万行）的data.table，其中包含许多客户的发票和付款，每个客户都有许多（唯一的）文档，每个文档都有创建日期和付款日期。如果没有付款日期（尚未），付款日期列将列出NA。数据如下所示： dt = data.table( customer_id = c(rep(1,4), rep(2,4)), document_id = c(1:8), creation_date = as.Date(c("2005-03-01", "2005-03-03", "2005-03-

我有一个相当大（300万行）的data.table，其中包含许多客户的发票和付款，每个客户都有许多（唯一的）文档，每个文档都有创建日期和付款日期。如果没有付款日期（尚未），付款日期列将列出NA。数据如下所示：

dt = data.table(
  customer_id = c(rep(1,4), rep(2,4)),
  document_id = c(1:8),
  creation_date = as.Date(c("2005-03-01", "2005-03-03", "2005-03-10", "2005-03-25", "2006-03-01", "2006-03-04", "2006-03-10", "2006-03-12"), "%Y-%m-%d"),
  payment_date = as.Date(c("2005-03-05", "2005-03-07", NA, "2005-03-28", "2006-03-05", NA, "2006-03-15", "2006-03-16"), "%Y-%m-%d"),
  open_docs_10 = c(0,1,2,1,0,1,2,3),
  percentage_open_10 = c(0.0,0.20,0.70,1.0,0.0,0.3,1.0,1.0)
)

对于每个文档（即每行），我希望（理想情况下）计算两个特性：

1） Open_docs_10，是当前文档的客户id在文档id创建日期之前的某个时间窗口（例如10天）内拥有的未支付或“打开”文档的数量。“打开”表示付款日期为NA，在时间间隔之后或之内，创建日期在时间间隔内或之前

2） Percentage_open_10，这是客户打开文档的时间窗口的天数百分比。文件的数量并不重要；该图显示“在创建新文档时，该客户在前10天中有4天未结付款”

对于1），我尝试了以下方法：


open_docs_10 = dt[,c("customer_id", "document_id", "creation_date", "payment_date")] %>% 
  .[, open_docs_10 := .[.(customer_id = customer_id, upper = creation_date, lower = creation_date - days(10)), 
                       on = .(customer_id, payment_date >= lower, creation_date > lower), uniqueN(document_id), by=.EACHI
                       ]$V1
    ]

但这还不能给出正确的结果，因为真正/正确的连接条件必须是

payment_date >= lower OR upper >= creation_date >= lower

似乎我不能在“on”子句中使用和/或语句。但如何使用data.table实现这一点呢

对于2），我不知道如何解决这个问题

我不受任何实际意义上使用data.table的约束；也许我正试图以一种困难的方式解决我的问题，而另一个更聪明的软件包会提供一种更聪明的处理方式？任何帮助都将不胜感激

我认为您在计算

开放百分比\u 10

时没有一贯地包括或排除结束日期。如果我们包括结束日期，您可以使用以下内容：

ndays <- 10L
setnafill(dt, fill=as.IDate("9999-12-31"), cols="payment_date")

dt[, cd10 := creation_date - ndays + 1L]

dt[, c("open_docs_10", "percentage_open_10") := 
    .SD[.SD, on=.(customer_id, creation_date<=creation_date, payment_date>=cd10), 
        allow.cartesian=TRUE, by=.EACHI, {
        ix <- x.document_id != i.document_id
        p <- 0
        if (any(ix)) {
            lastd <- min(c(i.creation_date, max(x.payment_date[ix]))) 
            firstd <- if (any(ix)) max(c(i.cd10, min(x.creation_date[ix]))) 
            p <- (lastd - firstd + 1) / 10
        }
        .(.N - 1L, p)
    }][, (1L:3L) := NULL]
]

然而，由于有300万行，我不希望这能在几秒钟内完成。

非常感谢您的帮助！您是对的，我不同意在间隔中包括/排除结束/开始日期。我还没有在完整的数据集上运行代码，但是当我运行时，我会让您知道它需要多长时间！作为一个小更新，在i7-7700k上运行完整数据集的代码大约需要6-7分钟。它不是超快速的（在实时意义上），但考虑到被查询的数据量，结果非常令人满意！您的文档id是否处于运行状态？也许可以节省一两分钟，我刚刚在脚本中添加了这个建议，这确实加快了速度。现在只剩下4分钟了！我使用脚本创建了几个变量，每个变量都会在一段越来越长的时间内回顾，所以这个添加最终总共节省了大约10分钟，这太棒了！非常感谢！

   customer_id document_id creation_date payment_date       cd10 open_docs_10 percentage_open_10
1:           1           1    2005-03-01   2005-03-05 2005-02-20            0                0.0
2:           1           2    2005-03-03   2005-03-07 2005-02-22            1                0.3
3:           1           3    2005-03-10   9999-12-31 2005-03-01            2                0.7
4:           1           4    2005-03-25   2005-03-28 2005-03-16            1                1.0
5:           2           5    2006-03-01   2006-03-05 2006-02-20            0                0.0
6:           2           6    2006-03-04   9999-12-31 2006-02-23            1                0.4
7:           2           7    2006-03-10   2006-03-15 2006-03-01            2                1.0
8:           2           8    2006-03-12   2006-03-16 2006-03-03            3                1.0