Apache spark 当处理连接另一侧的数据倾斜时,AQE是否在连接的一侧物理复制数据?

Apache spark 当处理连接另一侧的数据倾斜时,AQE是否在连接的一侧物理复制数据?,apache-spark,Apache Spark,此图摘自Databricks在“动态优化斜连接”部分的博客文章: “重复B0”标签让我感到困惑,文章中没有明确说明。是否涉及任何洗牌文件(对应于分区B0)的复制?没有数据复制,唯一的额外成本是必须多次提取B0分区(A0倾斜分区的每个分割1次),因此增加了作业的网络成本 来源: 未提及任何复制且仅警告: 这种方法将通过读取表A的分区0的N次来引入额外的成本。然而,处理倾斜连接的好处可能大于成本

此图摘自Databricks在“动态优化斜连接”部分的博客文章:


“重复B0”标签让我感到困惑,文章中没有明确说明。是否涉及任何洗牌文件(对应于分区B0)的复制?

没有数据复制,唯一的额外成本是必须多次提取B0分区(A0倾斜分区的每个分割1次),因此增加了作业的网络成本


来源: 未提及任何复制且仅警告:

这种方法将通过读取表A的分区0的N次来引入额外的成本。然而,处理倾斜连接的好处可能大于成本