Apache spark 如何避免Spark中的执行器故障错误

Apache spark 如何避免Spark中的执行器故障错误,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,如何在执行Spark作业时避免执行器故障。 我们使用Spark 1.6版本作为Cloudera CDH 5.10的一部分。 通常情况下,我会低于错误 ExecutorLostFailure (executor 21 exited caused by one of the running tasks) Reason: Executor heartbeat timed out after 127100 ms 任务执行缓慢的背后可能有各种各样的原因。当任务超时时,您需要深入查找根本原因。 有时,调整

如何在执行Spark作业时避免执行器故障。 我们使用Spark 1.6版本作为Cloudera CDH 5.10的一部分。 通常情况下,我会低于错误

ExecutorLostFailure (executor 21 exited caused by one of the running tasks) Reason: Executor heartbeat timed out after 127100 ms

任务执行缓慢的背后可能有各种各样的原因。当任务超时时,您需要深入查找根本原因。 有时,调整默认超时配置参数也有帮助。转到spark UI配置选项卡,找出以下参数的值,然后在
spark submit
中增加超时参数

spark.worker.timeout
spark.network.timeout
spark.akka.timeout
使用推测性执行运行作业
spark.substitution=true
也有帮助,如果一个或多个任务在某个阶段运行缓慢,它们将重新启动。


了解有关配置属性的更多信息。

作业是否已成功执行。您可能还想探索执行器超时属性。是的,它已成功执行。任务已提交给另一个执行者。