Hadoop 索引在hive内部是如何工作的?

Hadoop 索引在hive内部是如何工作的?,hadoop,hive,bigdata,Hadoop,Hive,Bigdata,索引只是表中特定列上的指针。创建索引意味着在表的特定列上创建指针。如果一个列在表中被索引,那么在查询该特定列时,该特定列的数据是如何指向的 来自文档 配置单元索引的目标是提高上的查询查找速度 表的某些列。如果没有索引,则使用谓词进行查询 如“WHERE tab1.col1=10”加载整个表或分区并 处理所有行。但是如果col1存在索引,那么只有 需要加载和处理文件的一部分。改进 在查询速度方面,索引可以提供的代价是 创建索引和磁盘空间以存储 索引 在场景后面,Hive基本上创建了一个映射,其中包

索引只是表中特定列上的指针。创建索引意味着在表的特定列上创建指针。如果一个列在表中被索引,那么在查询该特定列时,该特定列的数据是如何指向的

来自文档

配置单元索引的目标是提高上的查询查找速度 表的某些列。如果没有索引,则使用谓词进行查询 如“WHERE tab1.col1=10”加载整个表或分区并 处理所有行。但是如果col1存在索引,那么只有 需要加载和处理文件的一部分。改进 在查询速度方面,索引可以提供的代价是 创建索引和磁盘空间以存储 索引

在场景后面,Hive基本上创建了一个映射,其中包含它正在索引的列的值以及数据位于HDFS中的偏移量+文件,这样,Hive就不需要扫描所有数据来搜索特定值。这是一篇解释基本概念的好文章