Apache spark 使用spark将只有一个分区的100GB左右的大型数据集写入配置单元

Apache spark 使用spark将只有一个分区的100GB左右的大型数据集写入配置单元,apache-spark,hive,Apache Spark,Hive,我正在尝试使用spark将大型数据集写入一个分区的配置单元表(按日期分区)。数据集只产生一个日期,所以只有一个分区。写表要花很长时间。这也导致了写作时的混乱。我的代码不包含任何联接。它只有一些映射函数、过滤器和并集。如何有效地将此类数据写入配置单元表 请分享你的代码的一些例子?一般来说,尝试1。将联合拆分为多个查询2。在管道中尽快使用过滤器。3.查看字段的顺序是否相同,以避免顺序混淆。从您的屏幕截图。写作本身(第三阶段)只需11分钟。我宁愿把重点放在数据准备阶段#2,并试图找出为什么需要7个多小

我正在尝试使用spark将大型数据集写入一个分区的配置单元表(按日期分区)。数据集只产生一个日期,所以只有一个分区。写表要花很长时间。这也导致了写作时的混乱。我的代码不包含任何联接。它只有一些映射函数、过滤器和并集。如何有效地将此类数据写入配置单元表

请分享你的代码的一些例子?一般来说,尝试1。将联合拆分为多个查询2。在管道中尽快使用过滤器。3.查看字段的顺序是否相同,以避免顺序混淆。从您的屏幕截图。写作本身(第三阶段)只需11分钟。我宁愿把重点放在数据准备阶段#2,并试图找出为什么需要7个多小时。