Google cloud dataflow apachebeam中的推测执行

Google cloud dataflow apachebeam中的推测执行,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我在ApacheBeam文档中没有看到任何关于推测性执行的内容。但是声称它有类似的东西 ParDo转换是容错的,也就是说,如果它崩溃了,它是 重播。这种转变也有投机执行的概念 阅读Spark中的推测执行,两者都是相似的基础知识。 数据集给定子集的处理可在2上执行 不同的工人在任何时候。结果来自最快的 工人稍后会被使用,较慢的工人会被丢弃。在这 需要强调的是,ParDo的实施必须 意识到在同一数据子集上并行执行 这是真的吗?梁中没有类似的设计。您可以查看此处的文档[1],其中有许多关于此主题的详细

我在ApacheBeam文档中没有看到任何关于推测性执行的内容。但是声称它有类似的东西

ParDo转换是容错的,也就是说,如果它崩溃了,它是 重播。这种转变也有投机执行的概念 阅读Spark中的推测执行,两者都是相似的基础知识。 数据集给定子集的处理可在2上执行 不同的工人在任何时候。结果来自最快的 工人稍后会被使用,较慢的工人会被丢弃。在这 需要强调的是,ParDo的实施必须 意识到在同一数据子集上并行执行


这是真的吗?

梁中没有类似的设计。您可以查看此处的文档[1],其中有许多关于此主题的详细信息


梁中没有类似的设计。您可以查看此处的文档[1],其中有许多关于此主题的详细信息


我相信推测性执行是数据处理引擎的责任,而不是Beam。不过,Beam转换的一个要求是幂等变换,因为Beam模型不能保证用户代码被调用或重试的次数。

我认为推测执行是数据处理引擎的责任,而不是Beam的责任。然而,Beam转换的一个要求是幂等变换,因为Beam模型不能保证用户代码被调用或重试的次数。

关于执行模型的最相关文档是。我不认为这是所有跑步者的标准。它更可能描述Dataflow runner的功能。关于执行模型最相关的文档是。我不认为这是所有跑步者的标准。它更可能描述Dataflow runner的功能。