Google cloud dataflow 优化apachebeam/DataFlow中的重复转换

Google cloud dataflow 优化apachebeam/DataFlow中的重复转换,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我想知道ApacheBeam.googleDataflow是否足够聪明,能够识别数据流图中的重复转换并只运行一次。例如,如果我有两个分支: p | GroupByKey()| FlatMap(…) p | combiners.Top.PerKey(…)| FlatMap(…) 这两种方法都需要在引擎盖下按键对元素进行分组。执行引擎是否会识别GroupByKey()在这两种情况下具有相同的输入并只运行一次?或者我是否需要手动确保GroupByKey()在本例中执行所有使用它的分支?正如您可能推

我想知道ApacheBeam.googleDataflow是否足够聪明,能够识别数据流图中的重复转换并只运行一次。例如,如果我有两个分支:

  • p | GroupByKey()| FlatMap(…)
  • p | combiners.Top.PerKey(…)| FlatMap(…)

这两种方法都需要在引擎盖下按键对元素进行分组。执行引擎是否会识别GroupByKey()在这两种情况下具有相同的输入并只运行一次?或者我是否需要手动确保GroupByKey()在本例中执行所有使用它的分支?

正如您可能推断的,此行为依赖于运行程序。每个运行程序都实现自己的优化逻辑

  • 数据流运行程序当前不支持此优化

谢谢你,巴勃罗。我可以问一下这个优化是否在数据流转发器的路线图上?@ 0111100B,你可能想给一个明星一个优先次序,并可能打开你自己的一个要求你考虑的任何东西。我在尝试跟踪你的链接时被“拒绝访问”。这是预期的吗?我是用我的Gmail帐户登录的。你是对的,我给你发错了链接。