Google cloud dataflow 通过Dataflow API在不同步骤检查数据水印

Google cloud dataflow 通过Dataflow API在不同步骤检查数据水印,google-cloud-dataflow,Google Cloud Dataflow,在Dataflow UI中,我可以在作业的各个步骤检查数据水印(例如,在步骤GroupByKey中,数据水印为2017-05-24(10:51:58))。是否可以通过数据流API访问此数据?是的,您可以使用gcloud命令行工具访问该API gcloud beta dataflow metrics list <job_id> --project=<project_name> 然而,这还不容易理解,因为命名是基于数据流图的优化视图,而不是代码和UI看起来像的管道图视图。它

在Dataflow UI中,我可以在作业的各个步骤检查数据水印(例如,在步骤GroupByKey中,数据水印为2017-05-24(10:51:58))。是否可以通过数据流API访问此数据?

是的,您可以使用gcloud命令行工具访问该API

gcloud beta dataflow metrics list <job_id> --project=<project_name>
然而,这还不容易理解,因为命名是基于数据流图的优化视图,而不是代码和UI看起来像的管道图视图。它还使用诸如FX之类的标识符

最好获取所有数据水印并获取最小值,这将显示管道尚未完全处理的元素的最早时间戳

你特别想要什么信息

见:

谢谢。我特别在作业的最后一步寻找数据水印,即写入接收器。我猜这与最小水印相同。听起来我可以参考cbt()来了解如何通过Go应用程序访问这些信息。这是我经常监视的,以确保这项工作是“跟上”流数据。如果你有兴趣为这些度量添加警报,你也可以考虑看看这个博客。
F82-windmill-data-watermark