Hive 蜂巢扣合对地图边连接有什么好处?

Hive 蜂巢扣合对地图边连接有什么好处?,hive,Hive,我知道蜂箱里的水桶是什么,而且我对它有很深的了解。 我正在经历,其中提到: 带扣的桌子非常棒,因为它们可以让效率更高 取样比无扣件的表要多,而且以后可能会考虑到 节省时间的操作,如mapside联接 有人能解释一下扣合对地图边连接有什么好处吗 提前感谢。洗牌阶段非常昂贵,因为它需要排序和合并。保存洗牌和减少阶段可以提高任务性能。映射联接的动机是删除洗牌和减少阶段,并在映射阶段本身进行联接。这样,当一个表足够小,可以放入内存时,所有映射程序都可以将数据保存在内存中,并在内存中执行连接工作。 因此,

我知道蜂箱里的水桶是什么,而且我对它有很深的了解。 我正在经历,其中提到:

带扣的桌子非常棒,因为它们可以让效率更高 取样比无扣件的表要多,而且以后可能会考虑到 节省时间的操作,如mapside联接

有人能解释一下扣合对地图边连接有什么好处吗


提前感谢。

洗牌阶段非常昂贵,因为它需要排序和合并。保存洗牌和减少阶段可以提高任务性能。映射联接的动机是删除洗牌和减少阶段,并在映射阶段本身进行联接。这样,当一个表足够小,可以放入内存时,所有映射程序都可以将数据保存在内存中,并在内存中执行连接工作。 因此,在排序合并带扣联接中,两个表都是带扣的,一个表中的桶数是另一个表的一半。由于其中一个带扣的表足够小,可以放入内存中,因此我们可以通过跳过洗牌和完全减少阶段来利用映射联接


谢谢你,阿比德。还有,我想补充一点,只有当表按键进行排序和扣合时,才能进行扣合。排序的作用是所有键都位于磁盘的同一区域,这使得连接变得容易,因为相同的密钥被分组在一起,这在正常连接中是不可能的,因为它们分布在集群中,并且从网络利用率的角度来看是昂贵的。