Hadoop 配置单元数据模型:表在一个分区中有更多数据

Hadoop 配置单元数据模型:表在一个分区中有更多数据,hadoop,hive,hdfs,datamodel,Hadoop,Hive,Hdfs,Datamodel,我的蜂巢表如下所示: create external table abc ( id string, product strring, . . . city string ) partitioned by (state string) location 'path/to/dataFile/in/HDFS'; 该表包含美国各地的数据,正如您所看到的,它是按州划分的。状态栏中的样本值为NJ、CA、AZ等 问题是,该公司的大部分业务都在加州。所以,这个表有80%的数据在pa

我的蜂巢表如下所示:

create external table abc (
  id string,
  product strring,
  .
  .
  .
  city string
) partitioned by 
(state string) 
location 'path/to/dataFile/in/HDFS';
该表包含美国各地的数据,正如您所看到的,它是按州划分的。状态栏中的样本值为NJ、CA、AZ等

问题是,该公司的大部分业务都在加州。所以,这个表有80%的数据在partition state=CA中。我需要重新建模,因为查询state=CA需要时间,因为它有大量数据


我正在考虑在城市专栏上做广告,但想从这个论坛上听取意见。请告知任何有重塑此表好主意的人。

具体来说,您最常用的表用例是什么?用户大部分时间从CA分区获取数据。