Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 长时间运行的spark提交作业_Scala_Apache Spark_Cosine Similarity_Spark Submit - Fatal编程技术网

Scala 长时间运行的spark提交作业

Scala 长时间运行的spark提交作业,scala,apache-spark,cosine-similarity,spark-submit,Scala,Apache Spark,Cosine Similarity,Spark Submit,我正在尝试使用spark submit运行一个脚本,如下所示 spark-submit -v \ --master yarn \ --num-executors 80 \ --driver-memory 10g \ --executor-memory 10g \ --executor-cores 5 \ --class cosineSimillarity jobs-1.0.jar 此脚本正在60K记录上实现DIMSUM算法 提及: 不幸的是,即使在3小时后,这种情况仍在继续。 我厌倦了1K数据

我正在尝试使用spark submit运行一个脚本,如下所示

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar
此脚本正在60K记录上实现DIMSUM算法

提及:

不幸的是,即使在3小时后,这种情况仍在继续。 我厌倦了1K数据,并在2分钟内成功运行


有人能推荐对spark submit参数进行任何更改以使其更快吗?

您的spark submit声明表明您至少有80*50=400个内核,对吗

这意味着您应该确保至少有400个分区,以确保所有核心都正常工作(即每个核心至少有1个任务要处理)


查看您使用的代码,我认为您应该在
sc.textFile()
中读取文本文件时指定分区数,因为默认值为2(请参阅SparkContext.scala中的
defaultMinPartitions

检查Spark Web UI图表,可能并行性不好-然后
重新分区将有所帮助