Hadoop 从配置单元表的每个分区中随机抽取100000行的最快方法

Hadoop 从配置单元表的每个分区中随机抽取100000行的最快方法,hadoop,random,hive,hiveql,Hadoop,Random,Hive,Hiveql,我有一个按天分区的表,每个分区包含将近8000万行 我想从每个分区中随机抽取特定月份的100000行 目前,我在每个分区中使用秩,按rand()排序,然后根据秩进行过滤,但这几乎需要45-60分钟 有没有一种更快的方法在不影响样品质量的情况下做同样的事情 编辑 我的桌子没有扣子

我有一个按天分区的表,每个分区包含将近8000万行

我想从每个分区中随机抽取特定月份的100000行

目前,我在每个分区中使用秩,按rand()排序,然后根据秩进行过滤,但这几乎需要45-60分钟

有没有一种更快的方法在不影响样品质量的情况下做同样的事情

编辑 我的桌子没有扣子