Hadoop 可以使用索引来限制在配置单元中读取哪些分区吗?

Hadoop 可以使用索引来限制在配置单元中读取哪些分区吗?,hadoop,hive,hiveql,Hadoop,Hive,Hiveql,我有一个列,用于标识我希望分区的ETL工作流的每次运行(我们称之为run_ID)。但是,由于这会随着时间的推移创建大量分区,并且分区不能跨越分区列的多个值,因此我想知道是否有一个专门用于分区的技术列(我们称之为partition_ID)会对我有所帮助,因为这样我就可以在不更改RUN_ID的情况下合并两个分区 我现在的问题是,由于每个RUN\u ID只能存在于一个分区中,因此在使用RUN\u ID=xxx进行查询时,在RUN\u ID上建立索引是否仍能提供不读取所有分区的好处,或者在RUN\u I

我有一个列,用于标识我希望分区的ETL工作流的每次运行(我们称之为run_ID)。但是,由于这会随着时间的推移创建大量分区,并且分区不能跨越分区列的多个值,因此我想知道是否有一个专门用于分区的技术列(我们称之为partition_ID)会对我有所帮助,因为这样我就可以在不更改RUN_ID的情况下合并两个分区

我现在的问题是,由于每个RUN\u ID只能存在于一个分区中,因此在使用RUN\u ID=xxx进行查询时,在RUN\u ID上建立索引是否仍能提供不读取所有分区的好处,或者在RUN\u ID上加入,但在查询中不提供分区ID


假设hive 2.1.1

您每天有多少次运行?@DuduMarkovitz我们这里讨论的是DW框架的一个端口,因此我无法真正假设会有多少次;但是,在我目前参与的DW项目中,每天可能有10-20次运行其中一个表。我希望在Hive上运行的DW至少能达到这个数量,如果不是更多的话。您每天有多少次运行?@DuduMarkovitz我们在这里讨论的是DW框架的一个端口,所以我不能真正假设会有多少次;但是,在我目前参与的DW项目中,每天可能有10-20次运行其中一个表。我希望在Hive上运行的DW至少有这个,如果不是更多的话。