Google cloud dataflow 是什么导致数据流中的数据新鲜度不断增加？_Google Cloud Dataflow_Apache Beam_Google Cloud Pubsub

Google cloud dataflow 是什么导致数据流中的数据新鲜度不断增加？

google-cloud-dataflow

Google cloud dataflow 是什么导致数据流中的数据新鲜度不断增加？,google-cloud-dataflow,apache-beam,google-cloud-pubsub,Google Cloud Dataflow,Apache Beam,Google Cloud Pubsub,我们的数据流作业具有较低的系统延迟和较高的“数据新鲜度”（或“数据水印延迟”）在升级到Beam 2.15（从2.12）后，我们看到该指标不断增加，这可能是由于管道中有东西卡住所致。但是，情况并非如此，因为所有数据都已消耗（来自PubSub订阅）。权限似乎还可以，因为我们可以使用它（除非这还不够？）我们还检查了管道所有组件上的单个水印，它们都正常（最近）谢谢这确实很奇怪。以下是您可能会看到这种情况的一些原因：估计水印时，新的Beam SDK或数据流中可能存在错误可能是您更新了管道的拓

我们的数据流作业具有较低的系统延迟和较高的“数据新鲜度”（或“数据水印延迟”）

在升级到Beam 2.15（从2.12）后，我们看到该指标不断增加，这可能是由于管道中有东西卡住所致。但是，情况并非如此，因为所有数据都已消耗（来自PubSub订阅）。权限似乎还可以，因为我们可以使用它（除非这还不够？）

我们还检查了管道所有组件上的单个水印，它们都正常（最近）

谢谢

这确实很奇怪。以下是您可能会看到这种情况的一些原因：

估计水印时，新的Beam SDK或数据流中可能存在错误

可能是您更新了管道的拓扑，并遇到了与旧/新拓扑的水印计算相关的错误

工作可能确实被卡住了，并且您可能丢失了一些实际上没有通过管道的数据

如果您看到这一点，我的建议是打开一个数据流支持的支持案例。

如果您使用的是Python SDK，那么问题可能是还不支持在数据流中正确计算度量。我在数据流工作中也看到了同样的情况。@andreimarinescu谢谢你的回答！虽然我们有一些python作业正在运行，但这个特定的作业实际上是一个java作业：/但是很高兴知道，对于python，我们无法获得这些指标。@Jonny5我面临着同样的问题，您是否找到了解决方案？我的感觉是，2.15.0与以前的版本存在某种不兼容，导致了这一问题。推出2.15.0（无更新）或2.13.0不会给我带来任何问题，但从2.13.0升级到2.15.0对我们来说仍然是同样的问题。在某种程度上，一切都还好（新鲜度突然下降），但是在我们的新工作岗位上，它又在增加：（谢谢！我们会考虑尽快打开一个支持案例！）