apachehive分区&;屈曲结构

apachehive分区&;屈曲结构,hive,hiveql,Hive,Hiveql,在ApacheHive中,在一个巨大的数据集被分区之后,目录结构是如何处理的 例如,我有一个国家的客户数据集,数据按州划分,然后按城市划分。我们如何知道一个城市存储桶中会有多少文件?分区是一个目录,每个分区对应于分区列的特定值 在表或分区/目录中,存储桶被组织为文件。当创建一个表时,存储桶的数量是预定义的,表中的由(sth)聚集到K个存储桶中。每个bucket将有一个文件。Hive根据bucketed列计算的散列值将记录分配给bucket,并根据bucket的数量K进行mod。bucketing

在ApacheHive中,在一个巨大的数据集被分区之后,目录结构是如何处理的


例如,我有一个国家的客户数据集,数据按州划分,然后按城市划分。我们如何知道一个城市存储桶中会有多少文件?

分区是一个目录,每个分区对应于分区列的特定值


在表或分区/目录中,存储桶被组织为文件。当创建一个表时,存储桶的数量是预定义的,表中的
由(sth)聚集到K个存储桶中
。每个bucket将有一个文件。Hive根据bucketed列计算的散列值将记录分配给bucket,并根据bucket的数量K进行mod。

bucketing的最大数量为256。有关更多详细信息,请参阅以下链接:

[