Google cloud dataflow 使用ParDo-Apache-Beam跟踪不同的变换_Google Cloud Dataflow_Apache Beam

Google cloud dataflow 使用ParDo-Apache-Beam跟踪不同的变换

google-cloud-dataflow

Google cloud dataflow 使用ParDo-Apache-Beam跟踪不同的变换,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,这是一个好主意，使用帕尔多后立即明确？所发生的是，Distinct变换中的提取第一个元素步骤与下面的ParDo和后续变换并行工作。由于某种奇怪的原因，管道的速度减慢了。我是否应该等待distinct完成，然后通过在类似于side输入的中间创建一个虚拟变换来继续请让我知道代码段： p.apply(TextIO.read().from("gs://")) .apply(Distinct.<String>create()) .apply(ParDo.of(new DoFn...)) .

这是一个好主意，使用帕尔多后立即明确？所发生的是，Distinct变换中的提取第一个元素步骤与下面的ParDo和后续变换并行工作。由于某种奇怪的原因，管道的速度减慢了。我是否应该等待distinct完成，然后通过在类似于side输入的中间创建一个虚拟变换来继续

请让我知道

代码段：

p.apply(TextIO.read().from("gs://"))
.apply(Distinct.<String>create())
.apply(ParDo.of(new DoFn...))
.apply(ParDo.of(new DoFn...))
.apply(SpannerIO.write()...)

p.apply（TextIO.read（）.from（“gs:/”）
.apply（Distinct.create（））
.适用（第页，共页（新DoFn…）
.适用（第页，共页（新DoFn…）
.apply（span.write（）…）

您是否可以发布一些代码来显示管道的外观以及您看到的行为？单凭你的直觉是很难理解的description@Pablo我用一个片段更新了这篇文章。因此，我的问题是，我是否应该先等待独特的转换完成？因为当事情并行运行时，我观察到管道变得有点慢。但是我不是很确定。因此需要一些指导。