Google cloud dataflow apachebeam中的推测执行_Google Cloud Dataflow_Apache Beam

Google cloud dataflow apachebeam中的推测执行

google-cloud-dataflow

Google cloud dataflow apachebeam中的推测执行,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我在ApacheBeam文档中没有看到任何关于推测性执行的内容。但是声称它有类似的东西 ParDo转换是容错的，也就是说，如果它崩溃了，它是重播。这种转变也有投机执行的概念阅读Spark中的推测执行，两者都是相似的基础知识。数据集给定子集的处理可在2上执行不同的工人在任何时候。结果来自最快的工人稍后会被使用，较慢的工人会被丢弃。在这需要强调的是，ParDo的实施必须意识到在同一数据子集上并行执行这是真的吗？梁中没有类似的设计。您可以查看此处的文档[1]，其中有许多关于此主题的详细

我在ApacheBeam文档中没有看到任何关于推测性执行的内容。但是声称它有类似的东西

ParDo转换是容错的，也就是说，如果它崩溃了，它是重播。这种转变也有投机执行的概念阅读Spark中的推测执行，两者都是相似的基础知识。数据集给定子集的处理可在2上执行不同的工人在任何时候。结果来自最快的工人稍后会被使用，较慢的工人会被丢弃。在这需要强调的是，ParDo的实施必须意识到在同一数据子集上并行执行

这是真的吗？

梁中没有类似的设计。您可以查看此处的文档[1]，其中有许多关于此主题的详细信息

我相信推测性执行是数据处理引擎的责任，而不是Beam。不过，Beam转换的一个要求是幂等变换，因为Beam模型不能保证用户代码被调用或重试的次数。

我认为推测执行是数据处理引擎的责任，而不是Beam的责任。然而，Beam转换的一个要求是幂等变换，因为Beam模型不能保证用户代码被调用或重试的次数。

关于执行模型的最相关文档是。我不认为这是所有跑步者的标准。它更可能描述Dataflow runner的功能。关于执行模型最相关的文档是。我不认为这是所有跑步者的标准。它更可能描述Dataflow runner的功能。