Hadoop 配置单元数据模型：表在一个分区中有更多数据_Hadoop_Hive_Hdfs_Datamodel

Hadoop 配置单元数据模型：表在一个分区中有更多数据

hadoop hive

Hadoop 配置单元数据模型：表在一个分区中有更多数据,hadoop,hive,hdfs,datamodel,Hadoop,Hive,Hdfs,Datamodel,我的蜂巢表如下所示： create external table abc ( id string, product strring, . . . city string ) partitioned by (state string) location 'path/to/dataFile/in/HDFS'; 该表包含美国各地的数据，正如您所看到的，它是按州划分的。状态栏中的样本值为NJ、CA、AZ等问题是，该公司的大部分业务都在加州。所以，这个表有80%的数据在pa

我的蜂巢表如下所示：

create external table abc (
  id string,
  product strring,
  .
  .
  .
  city string
) partitioned by 
(state string) 
location 'path/to/dataFile/in/HDFS';

该表包含美国各地的数据，正如您所看到的，它是按州划分的。状态栏中的样本值为NJ、CA、AZ等

问题是，该公司的大部分业务都在加州。所以，这个表有80%的数据在partition state=CA中。我需要重新建模，因为查询state=CA需要时间，因为它有大量数据

我正在考虑在城市专栏上做广告，但想从这个论坛上听取意见。请告知任何有重塑此表好主意的人。

具体来说，您最常用的表用例是什么？用户大部分时间从CA分区获取数据。