Hive 什么';配置单元中位图和压缩索引的区别是什么?

Hive 什么';配置单元中位图和压缩索引的区别是什么?,hive,Hive,我知道最新版本的hive中已经删除了索引,但我仍然想知道2之间的区别。主要区别在于它们如何存储从值到值所在行的映射,以便在查询时能够快速识别具有相关数据的块 压缩索引存储一对索引列的值及其块id,而位图索引将索引列值和行列表的组合存储为位图 位图索引是一种标准技术,用于索引具有少量不同值的列 我建议你读一读这篇关于我的博客文章 其他信息 这里还有其他一些你可能想知道的事情 Hive 3.0删除了索引,他们建议使用物化视图来获得类似的结果,但我要说的是,使用柱状存储,如PARQUET或ORC,他们

我知道最新版本的hive中已经删除了索引,但我仍然想知道2之间的区别。

主要区别在于它们如何存储从值到值所在行的映射,以便在查询时能够快速识别具有相关数据的块

压缩索引存储一对索引列的值及其块id,而位图索引将索引列值和行列表的组合存储为位图

位图索引是一种标准技术,用于索引具有少量不同值的列

我建议你读一读这篇关于我的博客文章

其他信息

这里还有其他一些你可能想知道的事情

Hive 3.0删除了索引,他们建议使用物化视图来获得类似的结果,但我要说的是,使用柱状存储,如
PARQUET
ORC
,他们可以进行选择性扫描,甚至可以跳过整个文件/块

ORC
格式具有内置索引,允许格式在读取期间跳过数据块,它们还支持Bloom筛选器索引