Performance Spark saveAsTextFile在接近完成时速度极慢_Performance_Apache Spark

Performance Spark saveAsTextFile在接近完成时速度极慢

performance apache-spark

Performance Spark saveAsTextFile在接近完成时速度极慢,performance,apache-spark,Performance,Apache Spark,我基本上是在用spark进行排序。spark程序将从HDFS读取数据，对复合键进行排序，然后将分区结果保存回HDFS。伪代码如下所示： input = sc.textFile pairs = input.mapToPair sorted = pairs.sortByKey values = sorted.values values.saveAsTextFile 输入大小约为160G，我在JavaSparkContext.textFile和javapairdd.sortByKey中指

我基本上是在用spark进行排序。spark程序将从HDFS读取数据，对复合键进行排序，然后将分区结果保存回HDFS。伪代码如下所示：

input = sc.textFile 
pairs = input.mapToPair 
sorted = pairs.sortByKey 
values = sorted.values 
values.saveAsTextFile

输入大小约为160G，我在JavaSparkContext.textFile和javapairdd.sortByKey中指定了1000个分区。在WebUI中，作业分为两个阶段：saveAsTextFile和mapToPair。MapToPair在8分钟内完成。而saveAsTextFile需要约15分钟才能完成（2366/2373）进度，而最后几项作业只需花费很长时间，永远无法完成

群集设置：

8节点

每个节点上：15gb内存，8核

运行参数：

--执行器存储器12G

--形态“spark.cores.max=60”

谢谢您的帮助。

这里只是简单地说一下：您是否在HDFS中打开了复制？你能看看HDFS是否开始复制你的分区吗？你可以切换到kryo序列化，它比标准的Java更快来节省HDFS集群中的空间。我目前只将复制系数设置为1，这意味着没有复制。你能看看这个问题吗：嗨。你解决过这个问题吗？我有完全相同的行为。1275/1276号任务永远悬在那里。线程转储显示了一组锁和等待进程。你有没有想过？提前感谢您的任何提示。