Google cloud dataflow 找到两个文件之间的增量的正确方法是什么

Google cloud dataflow 找到两个文件之间的增量的正确方法是什么,google-cloud-dataflow,Google Cloud Dataflow,我每天都把文件放在Google存储桶中,我试图在Google云数据流中找到正确的方法来查找两个文本文件(今天的文件和昨天的文件)之间的增量。我没有在数据流API中看到任何现成的函数来查找两个PCollection之间的增量。我们是否有用于查找增量的API支持,还是应该编写PTransform?没有用于查找两个pCollection之间差异的现有API。每个PCollection表示一个可能是无限的无序时间戳事件流。两个无界流之间的差异没有很好的定义 鉴于这些都来自文件,您应该能够编写一些东西来实

我每天都把文件放在Google存储桶中,我试图在Google云数据流中找到正确的方法来查找两个文本文件(今天的文件和昨天的文件)之间的增量。我没有在数据流API中看到任何现成的函数来查找两个PCollection之间的增量。我们是否有用于查找增量的API支持,还是应该编写PTransform?

没有用于查找两个pCollection之间差异的现有API。每个PCollection表示一个可能是无限的无序时间戳事件流。两个无界流之间的差异没有很好的定义

鉴于这些都来自文件,您应该能够编写一些东西来实现这一点。例如,您可以按行的内容设置关键帧,然后执行CoGroupByKey以查找左侧文件中而非右侧文件中的关键帧