Apache spark 使用spark将只有一个分区的100GB左右的大型数据集写入配置单元_Apache Spark_Hive

Apache spark 使用spark将只有一个分区的100GB左右的大型数据集写入配置单元

apache-spark hive

Apache spark 使用spark将只有一个分区的100GB左右的大型数据集写入配置单元,apache-spark,hive,Apache Spark,Hive,我正在尝试使用spark将大型数据集写入一个分区的配置单元表（按日期分区）。数据集只产生一个日期，所以只有一个分区。写表要花很长时间。这也导致了写作时的混乱。我的代码不包含任何联接。它只有一些映射函数、过滤器和并集。如何有效地将此类数据写入配置单元表请分享你的代码的一些例子？一般来说，尝试1。将联合拆分为多个查询2。在管道中尽快使用过滤器。3.查看字段的顺序是否相同，以避免顺序混淆。从您的屏幕截图。写作本身（第三阶段）只需11分钟。我宁愿把重点放在数据准备阶段#2，并试图找出为什么需要7个多小

我正在尝试使用spark将大型数据集写入一个分区的配置单元表（按日期分区）。数据集只产生一个日期，所以只有一个分区。写表要花很长时间。这也导致了写作时的混乱。我的代码不包含任何联接。它只有一些映射函数、过滤器和并集。如何有效地将此类数据写入配置单元表

请分享你的代码的一些例子？一般来说，尝试1。将联合拆分为多个查询2。在管道中尽快使用过滤器。3.查看字段的顺序是否相同，以避免顺序混淆。从您的屏幕截图。写作本身（第三阶段）只需11分钟。我宁愿把重点放在数据准备阶段#2，并试图找出为什么需要7个多小时。