Google cloud dataflow apachebeam管道(Dataflow)-解释无界数据的执行时间

Google cloud dataflow apachebeam管道(Dataflow)-解释无界数据的执行时间,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,在梁管道执行的数据流监控界面中,每个转换框中都指定了一个持续时间(请参阅) 对于有界数据,我知道这是完成转换所需的估计时间。然而,对于无界数据,如我的流式处理,我如何解释这个数字 我的一些转换的持续时间明显高于其他转换,这意味着转换需要更多的时间。但是,关于这种不均匀分布如何影响我的执行,特别是如果我有一个窗口函数,还有什么其他的含义呢 此外,这是否与自动缩放有关?例如,如果执行时间超过某些阈值,是否会有更多员工被提速?或者自动缩放是否取决于输入端的数据量?在批处理和流式处理中,这是衡量这些步骤

在梁管道执行的数据流监控界面中,每个转换框中都指定了一个持续时间(请参阅)

对于有界数据,我知道这是完成转换所需的估计时间。然而,对于无界数据,如我的流式处理,我如何解释这个数字

我的一些转换的持续时间明显高于其他转换,这意味着转换需要更多的时间。但是,关于这种不均匀分布如何影响我的执行,特别是如果我有一个窗口函数,还有什么其他的含义呢


此外,这是否与自动缩放有关?例如,如果执行时间超过某些阈值,是否会有更多员工被提速?或者自动缩放是否取决于输入端的数据量?

在批处理和流式处理中,这是衡量这些步骤在每个工作线程上处于活动状态的时间。每个辅助机器的线程数在批处理和流处理之间有所不同,正如您所注意到的,更多的辅助机器意味着更多的辅助线程

这里没有任何实际的含义——这些度量是作为理解工作线程大部分时间都在做什么的一种方式提供的。如果整个管道似乎运行正常,那么您不需要做任何事情。如果您认为管道比您预期的慢,或者其中一个步骤似乎比您预期的要长,那么这些步骤可以作为了解性能的起点

从某种意义上讲,这类似于花在各种功能上的时间剖面如何有助于提高正常程序的性能。一个函数比另一个函数花费的时间更长,这对函数没有任何影响,但它可能是有用的信息