Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/performance/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Performance Spark saveAsTextFile在接近完成时速度极慢_Performance_Apache Spark - Fatal编程技术网

Performance Spark saveAsTextFile在接近完成时速度极慢

Performance Spark saveAsTextFile在接近完成时速度极慢,performance,apache-spark,Performance,Apache Spark,我基本上是在用spark进行排序。spark程序将从HDFS读取数据,对复合键进行排序,然后将分区结果保存回HDFS。 伪代码如下所示: input = sc.textFile pairs = input.mapToPair sorted = pairs.sortByKey values = sorted.values values.saveAsTextFile 输入大小约为160G,我在JavaSparkContext.textFile和javapairdd.sortByKey中指

我基本上是在用spark进行排序。spark程序将从HDFS读取数据,对复合键进行排序,然后将分区结果保存回HDFS。 伪代码如下所示:

input = sc.textFile 
pairs = input.mapToPair 
sorted = pairs.sortByKey 
values = sorted.values 
values.saveAsTextFile 
输入大小约为160G,我在JavaSparkContext.textFile和javapairdd.sortByKey中指定了1000个分区。在WebUI中,作业分为两个阶段:saveAsTextFile和mapToPair。MapToPair在8分钟内完成。而saveAsTextFile需要约15分钟才能完成(2366/2373)进度,而最后几项作业只需花费很长时间,永远无法完成

群集设置:

8节点

每个节点上:15gb内存,8核

运行参数:

--执行器存储器12G

--形态“spark.cores.max=60”


谢谢您的帮助。

这里只是简单地说一下:您是否在HDFS中打开了复制?你能看看HDFS是否开始复制你的分区吗?你可以切换到kryo序列化,它比标准的Java更快来节省HDFS集群中的空间。我目前只将复制系数设置为1,这意味着没有复制。你能看看这个问题吗:嗨。你解决过这个问题吗?我有完全相同的行为。1275/1276号任务永远悬在那里。线程转储显示了一组锁和等待进程。你有没有想过?提前感谢您的任何提示。