Google cloud dataflow 优化apachebeam/DataFlow中的重复转换
我想知道ApacheBeam.googleDataflow是否足够聪明,能够识别数据流图中的重复转换并只运行一次。例如,如果我有两个分支:Google cloud dataflow 优化apachebeam/DataFlow中的重复转换,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我想知道ApacheBeam.googleDataflow是否足够聪明,能够识别数据流图中的重复转换并只运行一次。例如,如果我有两个分支: p | GroupByKey()| FlatMap(…) p | combiners.Top.PerKey(…)| FlatMap(…) 这两种方法都需要在引擎盖下按键对元素进行分组。执行引擎是否会识别GroupByKey()在这两种情况下具有相同的输入并只运行一次?或者我是否需要手动确保GroupByKey()在本例中执行所有使用它的分支?正如您可能推
- p | GroupByKey()| FlatMap(…)
- p | combiners.Top.PerKey(…)| FlatMap(…)
这两种方法都需要在引擎盖下按键对元素进行分组。执行引擎是否会识别GroupByKey()在这两种情况下具有相同的输入并只运行一次?或者我是否需要手动确保GroupByKey()在本例中执行所有使用它的分支?正如您可能推断的,此行为依赖于运行程序。每个运行程序都实现自己的优化逻辑
- 数据流运行程序当前不支持此优化