Hive 配置单元表中同一列上的分区和bucketing_Hive

Hive 配置单元表中同一列上的分区和bucketing

hive

Hive 配置单元表中同一列上的分区和bucketing,hive,Hive,我的配置单元表中有按日期分区的数据。由于一天的数据非常庞大，我想进一步将这些数据分为4部分。因此，我想读取每个部分并处理数据为了将一天的数据分成4个部分，我们可以在同一个日期字段上使用bucketing并给出4个Bucket来制作4个部分吗 create table state_part(District string,Enrolments string) PARTITIONED BY(enrolled_date string) CLUSTERED BY (enrolled_date) int

我的配置单元表中有按日期分区的数据。由于一天的数据非常庞大，我想进一步将这些数据分为4部分。因此，我想读取每个部分并处理数据

为了将一天的数据分成4个部分，我们可以在同一个日期字段上使用bucketing并给出4个Bucket来制作4个部分吗

create table state_part(District string,Enrolments string) PARTITIONED BY(enrolled_date string) CLUSTERED BY (enrolled_date) into 4 buckets;

我是新来的蜂巢，谁能帮我把这一天的数据分成4部分，然后一次读取一部分数据

非常感谢你的帮助

谢谢，

Babu的使用场景不清楚。您将如何处理数据？Hive在读取大文件时以可拆分格式拆分大文件。谢谢你的回复。基本上我有一个按小时划分的蜂箱表。所以当我读取每个分区时，数据是巨大的，我想把这个每小时一次的分区数据分成3个部分，比如说20分钟的分区，我想用spark java代码处理每个部分。我希望您了解情况，我正在寻求帮助，了解如何使用1小时分区的数据制作20分钟分区。