Hive 用于大表的配置单元分区

Hive 用于大表的配置单元分区,hive,partitioning,Hive,Partitioning,我有一个包含三列的配置单元表 origin zip, destination zip, miles 此表上的大多数查询都有一个带有两个字段的where子句 origin zip, destination zip 以及选择 miles 划分表的最佳方法是什么,或者如何提高select性能?该表有20亿行和orc表 谢谢您也可以使用bucketing而不是分区,请参见使用state name(请参见此处的ranges:)+按zip\u destination使用bucketing。构建zip\

我有一个包含三列的配置单元表

origin zip, destination zip, miles
此表上的大多数查询都有一个带有两个字段的where子句

origin zip, destination zip
以及选择

miles
划分表的最佳方法是什么,或者如何提高select性能?该表有20亿行和orc表


谢谢

您也可以使用bucketing而不是分区,请参见使用state name(请参见此处的ranges:)+按zip\u destination使用bucketing。构建zip\u range\u dim并在映射联接中使用它进行查找,以获取range\u名称(状态)。