Scala 长时间运行的spark提交作业
我正在尝试使用spark submit运行一个脚本,如下所示Scala 长时间运行的spark提交作业,scala,apache-spark,cosine-similarity,spark-submit,Scala,Apache Spark,Cosine Similarity,Spark Submit,我正在尝试使用spark submit运行一个脚本,如下所示 spark-submit -v \ --master yarn \ --num-executors 80 \ --driver-memory 10g \ --executor-memory 10g \ --executor-cores 5 \ --class cosineSimillarity jobs-1.0.jar 此脚本正在60K记录上实现DIMSUM算法 提及: 不幸的是,即使在3小时后,这种情况仍在继续。 我厌倦了1K数据
spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar
此脚本正在60K记录上实现DIMSUM算法
提及:
不幸的是,即使在3小时后,这种情况仍在继续。
我厌倦了1K数据,并在2分钟内成功运行
有人能推荐对spark submit参数进行任何更改以使其更快吗?您的spark submit声明表明您至少有80*50=400个内核,对吗 这意味着您应该确保至少有400个分区,以确保所有核心都正常工作(即每个核心至少有1个任务要处理)
查看您使用的代码,我认为您应该在
sc.textFile()
中读取文本文件时指定分区数,因为默认值为2(请参阅SparkContext.scala中的defaultMinPartitions
)检查Spark Web UI图表,可能并行性不好-然后重新分区将有所帮助