Google cloud dataflow 使用ParDo-Apache-Beam跟踪不同的变换

Google cloud dataflow 使用ParDo-Apache-Beam跟踪不同的变换,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,这是一个好主意,使用帕尔多后立即明确?所发生的是,Distinct变换中的提取第一个元素步骤与下面的ParDo和后续变换并行工作。由于某种奇怪的原因,管道的速度减慢了。我是否应该等待distinct完成,然后通过在类似于side输入的中间创建一个虚拟变换来继续 请让我知道 代码段: p.apply(TextIO.read().from("gs://")) .apply(Distinct.<String>create()) .apply(ParDo.of(new DoFn...)) .

这是一个好主意,使用帕尔多后立即明确?所发生的是,Distinct变换中的提取第一个元素步骤与下面的ParDo和后续变换并行工作。由于某种奇怪的原因,管道的速度减慢了。我是否应该等待distinct完成,然后通过在类似于side输入的中间创建一个虚拟变换来继续

请让我知道

代码段:

p.apply(TextIO.read().from("gs://"))
.apply(Distinct.<String>create())
.apply(ParDo.of(new DoFn...))
.apply(ParDo.of(new DoFn...))
.apply(SpannerIO.write()...)
p.apply(TextIO.read().from(“gs:/”)
.apply(Distinct.create())
.适用(第页,共页(新DoFn…)
.适用(第页,共页(新DoFn…)
.apply(span.write()…)

您是否可以发布一些代码来显示管道的外观以及您看到的行为?单凭你的直觉是很难理解的description@Pablo我用一个片段更新了这篇文章。因此,我的问题是,我是否应该先等待独特的转换完成?因为当事情并行运行时,我观察到管道变得有点慢。但是我不是很确定。因此需要一些指导。