Google cloud dataflow 数据流作业上缓慢而奇怪的排放过程

Google cloud dataflow 数据流作业上缓慢而奇怪的排放过程,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我有一个在流模式下的数据流作业,它是用ApacheBeam Python SDK编写的,总体来说,它的工作方式与预期的一样,但是,由于我们不时地想要更新代码,所以我们需要部署一个新作业并耗尽旧作业。我一按“排水”按钮,工作就开始表现得很奇怪。它将工作人员的数量增加到允许的最大值,我知道这是预期的,但这些工作人员的CPU使用率是疯狂的。此外,“系统延迟”指标也在增加。你可以在下面的截图中看到,我将其设置为“排水”,这非常明显。 你可以看到排水有4天没有完成,我不得不取消工作。 有一件事我不明白,

我有一个在流模式下的数据流作业,它是用ApacheBeam Python SDK编写的,总体来说,它的工作方式与预期的一样,但是,由于我们不时地想要更新代码,所以我们需要部署一个新作业并耗尽旧作业。我一按“排水”按钮,工作就开始表现得很奇怪。它将工作人员的数量增加到允许的最大值,我知道这是预期的,但这些工作人员的CPU使用率是疯狂的。此外,“系统延迟”指标也在增加。你可以在下面的截图中看到,我将其设置为“排水”,这非常明显。

你可以看到排水有4天没有完成,我不得不取消工作。 有一件事我不明白,为什么在作业耗尽时DoFns的“吞吐量”总是为0。 我怎样才能改变我的工作,使它更友好?
您可以在

中找到作业代码,您使用的源代码是什么?另外,您是否设置了计时器?在某些情况下,您可以尝试哪种处理方式更好。管道正在从pub/sub读取数据并插入到BigQuery中。没有定时器,窗口fn非常小,60秒,也使用默认触发器。此外,我已经有了
--experiments=use_runner_v2
,如果这是您所指的。您看到过多次,还是只看到过一次?@Pablo我们有3个正在运行的作业,但我们经常更新这一个,并且我们只在耗尽此作业时看到此问题,不确定其他作业。我可以提供你3个工作ID,也许可以帮助你调查<代码>2021-04-01\u 01\u 04\u 33-15566590661708392073,
2021-05-04-11\u 31\u 56-9475672897419873800
2021-04-16\u 01\u 06\u 00-18014300968926826985