Hive 配置单元表中同一列上的分区和bucketing

Hive 配置单元表中同一列上的分区和bucketing,hive,Hive,我的配置单元表中有按日期分区的数据。由于一天的数据非常庞大,我想进一步将这些数据分为4部分。因此,我想读取每个部分并处理数据 为了将一天的数据分成4个部分,我们可以在同一个日期字段上使用bucketing并给出4个Bucket来制作4个部分吗 create table state_part(District string,Enrolments string) PARTITIONED BY(enrolled_date string) CLUSTERED BY (enrolled_date) int

我的配置单元表中有按日期分区的数据。由于一天的数据非常庞大,我想进一步将这些数据分为4部分。因此,我想读取每个部分并处理数据

为了将一天的数据分成4个部分,我们可以在同一个日期字段上使用bucketing并给出4个Bucket来制作4个部分吗

create table state_part(District string,Enrolments string) PARTITIONED BY(enrolled_date string) CLUSTERED BY (enrolled_date) into 4 buckets;
我是新来的蜂巢,谁能帮我把这一天的数据分成4部分,然后一次读取一部分数据

非常感谢你的帮助

谢谢,
Babu的使用场景不清楚。您将如何处理数据?Hive在读取大文件时以可拆分格式拆分大文件。谢谢你的回复。基本上我有一个按小时划分的蜂箱表。所以当我读取每个分区时,数据是巨大的,我想把这个每小时一次的分区数据分成3个部分,比如说20分钟的分区,我想用spark java代码处理每个部分。我希望您了解情况,我正在寻求帮助,了解如何使用1小时分区的数据制作20分钟分区。