Hadoop 索引在hive内部是如何工作的？_Hadoop_Hive_Bigdata

Hadoop 索引在hive内部是如何工作的？

hadoop hive

Hadoop 索引在hive内部是如何工作的？,hadoop,hive,bigdata,Hadoop,Hive,Bigdata,索引只是表中特定列上的指针。创建索引意味着在表的特定列上创建指针。如果一个列在表中被索引，那么在查询该特定列时，该特定列的数据是如何指向的来自文档配置单元索引的目标是提高上的查询查找速度表的某些列。如果没有索引，则使用谓词进行查询如“WHERE tab1.col1=10”加载整个表或分区并处理所有行。但是如果col1存在索引，那么只有需要加载和处理文件的一部分。改进在查询速度方面，索引可以提供的代价是创建索引和磁盘空间以存储索引在场景后面，Hive基本上创建了一个映射，其中包

索引只是表中特定列上的指针。创建索引意味着在表的特定列上创建指针。如果一个列在表中被索引，那么在查询该特定列时，该特定列的数据是如何指向的

来自文档

配置单元索引的目标是提高上的查询查找速度表的某些列。如果没有索引，则使用谓词进行查询如“WHERE tab1.col1=10”加载整个表或分区并处理所有行。但是如果col1存在索引，那么只有需要加载和处理文件的一部分。改进在查询速度方面，索引可以提供的代价是创建索引和磁盘空间以存储索引

在场景后面，Hive基本上创建了一个映射，其中包含它正在索引的列的值以及数据位于HDFS中的偏移量+文件，这样，Hive就不需要扫描所有数据来搜索特定值。这是一篇解释基本概念的好文章