Scala 长时间运行的spark提交作业_Scala_Apache Spark_Cosine Similarity_Spark Submit

Scala 长时间运行的spark提交作业

scala apache-spark

Scala 长时间运行的spark提交作业,scala,apache-spark,cosine-similarity,spark-submit,Scala,Apache Spark,Cosine Similarity,Spark Submit,我正在尝试使用spark submit运行一个脚本，如下所示 spark-submit -v \ --master yarn \ --num-executors 80 \ --driver-memory 10g \ --executor-memory 10g \ --executor-cores 5 \ --class cosineSimillarity jobs-1.0.jar 此脚本正在60K记录上实现DIMSUM算法提及：不幸的是，即使在3小时后，这种情况仍在继续。我厌倦了1K数据

我正在尝试使用spark submit运行一个脚本，如下所示

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar

此脚本正在60K记录上实现DIMSUM算法

提及：

不幸的是，即使在3小时后，这种情况仍在继续。我厌倦了1K数据，并在2分钟内成功运行

有人能推荐对spark submit参数进行任何更改以使其更快吗？

您的spark submit声明表明您至少有80*50=400个内核，对吗

这意味着您应该确保至少有400个分区，以确保所有核心都正常工作（即每个核心至少有1个任务要处理）

查看您使用的代码，我认为您应该在

sc.textFile（）

中读取文本文件时指定分区数，因为默认值为2（请参阅SparkContext.scala中的

defaultMinPartitions

）

检查Spark Web UI图表，可能并行性不好-然后

重新分区将有所帮助