Google cloud dataflow 使用Python在Dataflow/Beam中分发示例

Google cloud dataflow 使用Python在Dataflow/Beam中分发示例,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,这个问题涉及到 我试图使用Dataflow/Beam上的Python SDK获取PCollection中的项目示例 Sample.FixedSizeGlobally(n)存在并导致PCollection的Iterable 假设我有这个: pipeline | Sample.FixedSizeGlobally(Sample_size)| beam.Map(my_函数) 在这种情况下,不清楚整个样本是否会在单个工人身上结束,是否会导致内存不足,或者样本是否会被分发。当前实施的采样p转换(从Beam

这个问题涉及到

我试图使用Dataflow/Beam上的Python SDK获取PCollection中的项目示例

Sample.FixedSizeGlobally(n)
存在并导致PCollection的Iterable

假设我有这个:
pipeline | Sample.FixedSizeGlobally(Sample_size)| beam.Map(my_函数)


在这种情况下,不清楚整个样本是否会在单个工人身上结束,是否会导致内存不足,或者样本是否会被分发。

当前实施的采样p转换(从Beam 2.4.0开始)存在此问题。如果你的样本太大,那么它可能会压倒一个工人

它还存在并行性非常低的问题

对这一转变的改进应该在几个月内完成,并在