Google cloud dataflow Beam/数据流中的批处理PCollection

Google cloud dataflow Beam/数据流中的批处理PCollection,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我在GCP Dataflow/Apache Beam中有一个PCollection。我需要将“by N”组合起来,而不是一个接一个地处理它。类似于分组(N)。因此,在有界处理的情况下,它将以10个项目为一批进行分组,最后一批是剩余的项目。 这在Apache Beam中可能吗?编辑,如下所示: 您应该能够通过将元素分配给全局窗口并使用AfterPane.elementcountatlast(N)来执行类似的操作。您仍然需要考虑如果没有足够的元素触发触发器会发生什么。你可以用这个: Repeate

我在GCP Dataflow/Apache Beam中有一个PCollection。我需要将“by N”组合起来,而不是一个接一个地处理它。类似于
分组(N)
。因此,在有界处理的情况下,它将以10个项目为一批进行分组,最后一批是剩余的项目。 这在Apache Beam中可能吗?

编辑,如下所示:

您应该能够通过将元素分配给全局窗口并使用
AfterPane.elementcountatlast(N)
来执行类似的操作。您仍然需要考虑如果没有足够的元素触发触发器会发生什么。你可以用这个:

 Repeatedly.forever(AfterFirst.of(
  AfterPane.elementCountAtLeast(N),
  AfterProcessingTime.pastFirstElementInPane().plusDelayOf(Duration.standardMinutes(X))))

但是你应该问问自己,为什么你首先需要这种启发,也许有更多的方法来解决你的问题。阅读

中的
数据驱动触发器
GroupIntoBatches
p转换是否适用于此处?