Google cloud dataflow google云数据流作业的机器类型

Google cloud dataflow google云数据流作业的机器类型,google-cloud-dataflow,Google Cloud Dataflow,我注意到有一个选项允许指定机器类型。 我应该使用什么标准来决定是否覆盖默认的机器类型 在一些实验中,我看到较小实例的吞吐量更好,但另一方面,当使用许多较小实例而不是较少的默认实例时,作业往往会经历更多的系统故障 谢谢, 数据流最终将为您优化机器类型。同时,这里有一些场景,我可以想到您可能希望在哪里更改机器类型 如果您的ParDO操作需要大量内存,您可能希望将机器类型更改为Google Compute Engine提供的高内存机器之一 优化成本和速度。如果您的CPU利用率低于100%,您可以选择一

我注意到有一个选项允许指定机器类型。 我应该使用什么标准来决定是否覆盖默认的机器类型

在一些实验中,我看到较小实例的吞吐量更好,但另一方面,当使用许多较小实例而不是较少的默认实例时,作业往往会经历更多的系统故障

谢谢,
数据流最终将为您优化机器类型。同时,这里有一些场景,我可以想到您可能希望在哪里更改机器类型

如果您的ParDO操作需要大量内存,您可能希望将机器类型更改为Google Compute Engine提供的高内存机器之一

优化成本和速度。如果您的CPU利用率低于100%,您可以选择一台CPU较少的机器,从而降低工作成本。或者,如果增加机器数量并减少每台机器的CPU数量,使总CPU保持大致不变,则可以使作业运行更快,但成本大致相同

您能否详细说明您看到的系统故障类型?一大类故障(例如VM中断)是概率性的,因此随着机器数量的增加,您可能会看到更多的绝对故障。然而,像VM中断这样的失败应该是相当罕见的,所以如果您注意到增加,我会感到惊讶,除非您使用的VM数量级更多

另一方面,由于使用更多计算机的并行性增加,资源争用可能会导致更多的失败。如果是这样的话,我们真的很想知道,看看这是否是我们可以解决的问题