Hadoop 可以使用索引来限制在配置单元中读取哪些分区吗？_Hadoop_Hive_Hiveql

Hadoop 可以使用索引来限制在配置单元中读取哪些分区吗？

hadoop hive

Hadoop 可以使用索引来限制在配置单元中读取哪些分区吗？,hadoop,hive,hiveql,Hadoop,Hive,Hiveql,我有一个列，用于标识我希望分区的ETL工作流的每次运行（我们称之为run_ID）。但是，由于这会随着时间的推移创建大量分区，并且分区不能跨越分区列的多个值，因此我想知道是否有一个专门用于分区的技术列（我们称之为partition_ID）会对我有所帮助，因为这样我就可以在不更改RUN_ID的情况下合并两个分区我现在的问题是，由于每个RUN\u ID只能存在于一个分区中，因此在使用RUN\u ID=xxx进行查询时，在RUN\u ID上建立索引是否仍能提供不读取所有分区的好处，或者在RUN\u I

我有一个列，用于标识我希望分区的ETL工作流的每次运行（我们称之为run_ID）。但是，由于这会随着时间的推移创建大量分区，并且分区不能跨越分区列的多个值，因此我想知道是否有一个专门用于分区的技术列（我们称之为partition_ID）会对我有所帮助，因为这样我就可以在不更改RUN_ID的情况下合并两个分区

我现在的问题是，由于每个RUN\u ID只能存在于一个分区中，因此在使用RUN\u ID=xxx进行查询时，在RUN\u ID上建立索引是否仍能提供不读取所有分区的好处，或者在RUN\u ID上加入，但在查询中不提供分区ID

假设hive 2.1.1

您每天有多少次运行？@DuduMarkovitz我们这里讨论的是DW框架的一个端口，因此我无法真正假设会有多少次；但是，在我目前参与的DW项目中，每天可能有10-20次运行其中一个表。我希望在Hive上运行的DW至少能达到这个数量，如果不是更多的话。您每天有多少次运行？@DuduMarkovitz我们在这里讨论的是DW框架的一个端口，所以我不能真正假设会有多少次；但是，在我目前参与的DW项目中，每天可能有10-20次运行其中一个表。我希望在Hive上运行的DW至少有这个，如果不是更多的话。