Join 当存在多个倾斜关键点时,配置单元倾斜连接优化中的详细信息

Join 当存在多个倾斜关键点时,配置单元倾斜连接优化中的详细信息,join,hive,skew,Join,Hive,Skew,针对配置单元倾斜连接优化的一些细节,有三个问题: 问题1 在中,我们了解了蜂巢倾斜连接优化的基本思想。。。但有一些细节让我感到困扰: 例如: 从A.id=B.id上的联接B中选择A.id 在表A中,有三个倾斜键:id=1、id=2、id=3,其他键分布均匀,它会启动4个MR作业吗 作业1处理均匀分布的密钥 作业2处理歪斜键id=1 作业3处理歪斜键id=2 作业4处理歪斜键id=3 是这样吗?非常感谢 问题2 正如我们所知,关于倾斜连接优化的关键点是我们可以使用映射连接来处理倾斜连接键,例如1、

针对配置单元倾斜连接优化的一些细节,有三个问题:

问题1

在中,我们了解了蜂巢倾斜连接优化的基本思想。。。但有一些细节让我感到困扰:

例如:

从A.id=B.id上的联接B中选择A.id

在表A中,有三个倾斜键:id=1、id=2、id=3,其他键分布均匀,它会启动4个MR作业吗

作业1处理均匀分布的密钥

作业2处理歪斜键id=1

作业3处理歪斜键id=2

作业4处理歪斜键id=3

是这样吗?非常感谢

问题2

正如我们所知,关于倾斜连接优化的关键点是我们可以使用映射连接来处理倾斜连接键,例如1、2、3。所以,如果这不符合映射连接条件,它会退回到普通连接吗

问题3

默认设置为:hive.skewjoin.key=100000,这对于实际查询来说通常太小。是否可以动态决定skew join的触发条件,例如基于JVM堆大小和skew表的总行数?

问题1:
不是4个作业,而是4个减缩器,每个减缩器处理一个唯一的键

为什么问题用SQL标记?