Hadoop Hive(Bigdata)-bucketing和索引之间的差异

Hadoop Hive(Bigdata)-bucketing和索引之间的差异,hadoop,mapreduce,hive,bigdata,Hadoop,Mapreduce,Hive,Bigdata,在Hive中对表进行对折和索引的主要区别是什么?主要区别在于目标: 索引 配置单元索引的目标是提高表中某些列的查询查找速度。如果没有索引,使用诸如“WHERE tab1.col1=10”之类谓词的查询将加载整个表或分区并处理所有行。但是,如果存在col1的索引,则只需要加载和处理文件的一部分 当表变得非常大时,索引变得更为重要,正如您现在无疑知道的,Hive在大型表上蓬勃发展 扣 它通常用于联接操作,因为您可以通过按特定的“键”或“id”对记录进行bucketing来优化联接。这样,当您

在Hive中对表进行对折和索引的主要区别是什么?

主要区别在于目标:

  • 索引
配置单元索引的目标是提高表中某些列的查询查找速度。如果没有索引,使用诸如“WHERE tab1.col1=10”之类谓词的查询将加载整个表或分区并处理所有行。但是,如果存在col1的索引,则只需要加载和处理文件的一部分

当表变得非常大时,索引变得更为重要,正如您现在无疑知道的,Hive在大型表上蓬勃发展

它通常用于联接操作,因为您可以通过按特定的“键”或“id”对记录进行bucketing来优化联接。这样,当您想要执行联接操作时,具有相同“键”的记录将位于同一个bucket中,联接操作将更快。您可以将其视为一种将数据集分解为更易于管理的部分的技术。这为您提供了5个有效的配置单元查询提示,其中一个是关于Bucketing