Google cloud dataflow 是什么导致数据流中的数据新鲜度不断增加?

Google cloud dataflow 是什么导致数据流中的数据新鲜度不断增加?,google-cloud-dataflow,apache-beam,google-cloud-pubsub,Google Cloud Dataflow,Apache Beam,Google Cloud Pubsub,我们的数据流作业具有较低的系统延迟和较高的“数据新鲜度”(或“数据水印延迟”) 在升级到Beam 2.15(从2.12)后,我们看到该指标不断增加,这可能是由于管道中有东西卡住所致。但是,情况并非如此,因为所有数据都已消耗(来自PubSub订阅)。权限似乎还可以,因为我们可以使用它(除非这还不够?) 我们还检查了管道所有组件上的单个水印,它们都正常(最近) 谢谢 这确实很奇怪。以下是您可能会看到这种情况的一些原因: 估计水印时,新的Beam SDK或数据流中可能存在错误 可能是您更新了管道的拓

我们的数据流作业具有较低的系统延迟和较高的“数据新鲜度”(或“数据水印延迟”)

在升级到Beam 2.15(从2.12)后,我们看到该指标不断增加,这可能是由于管道中有东西卡住所致。但是,情况并非如此,因为所有数据都已消耗(来自PubSub订阅)。权限似乎还可以,因为我们可以使用它(除非这还不够?)

我们还检查了管道所有组件上的单个水印,它们都正常(最近)


谢谢

这确实很奇怪。以下是您可能会看到这种情况的一些原因:

  • 估计水印时,新的Beam SDK或数据流中可能存在错误
  • 可能是您更新了管道的拓扑,并遇到了与旧/新拓扑的水印计算相关的错误
  • 工作可能确实被卡住了,并且您可能丢失了一些实际上没有通过管道的数据

  • 如果您看到这一点,我的建议是打开一个数据流支持的支持案例。

    如果您使用的是Python SDK,那么问题可能是还不支持在数据流中正确计算度量。我在数据流工作中也看到了同样的情况。@andreimarinescu谢谢你的回答!虽然我们有一些python作业正在运行,但这个特定的作业实际上是一个java作业:/但是很高兴知道,对于python,我们无法获得这些指标。@Jonny5我面临着同样的问题,您是否找到了解决方案?我的感觉是,2.15.0与以前的版本存在某种不兼容,导致了这一问题。推出2.15.0(无更新)或2.13.0不会给我带来任何问题,但从2.13.0升级到2.15.0对我们来说仍然是同样的问题。在某种程度上,一切都还好(新鲜度突然下降),但是在我们的新工作岗位上,它又在增加:(谢谢!我们会考虑尽快打开一个支持案例!)