Apache spark 在哪里可以找到Spark引发的异常'；遗嘱执行人_Apache Spark_Pyspark

Apache spark 在哪里可以找到Spark引发的异常'；遗嘱执行人

apache-spark pyspark

Apache spark 在哪里可以找到Spark引发的异常'；遗嘱执行人,apache-spark,pyspark,Apache Spark,Pyspark,我们得到了一些错误的看法，但无法确定根本原因下面是一个可以创建错误的简化脚本 filenames = "hdfs://myfile1,hdfs://myfile2" sc.textFile(filenames).first() 作为一个实验，当我故意在1GB数据上运行spark作业时，只有1mb的spark.executor.memory，驱动程序会打印以下错误消息 16/04/28 17:28:54 INFO TaskSetManager: Starting task 0.0 in sta

我们得到了一些错误的看法，但无法确定根本原因

下面是一个可以创建错误的简化脚本

filenames = "hdfs://myfile1,hdfs://myfile2"
sc.textFile(filenames).first()

作为一个实验，当我故意在1GB数据上运行spark作业时，只有1mb的

spark.executor.memory

，驱动程序会打印以下错误消息

16/04/28 17:28:54 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, 
host.addr, partition 0,ANY, 2257 bytes)
16/04/28 17:29:28 INFO MesosSchedulerBackend: Executor lost: 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5, marking slave 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5 as lost
16/04/28 17:29:28 INFO MesosSchedulerBackend: Mesos slave lost: 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5
16/04/28 17:29:28 ERROR TaskSchedulerImpl: Lost executor 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5 on host.addr: Unknown executor exit code (256) (died from signal 128?)
16/04/28 17:29:28 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, host.addr): ExecutorLostFailure (executor 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5 exited caused by one of the running tasks) Reason: Unknown executor exit code (256) (died from signal 128?)

自动重试几次后，整个作业都失败了。这在Pyspark和Scala spark中都会发生

我可以查看哪些适当的日志来确定此执行器失败的确切原因？

对于这个受控案例，我知道内存不足是原因。然而，这些和其他带有不同退出代码的故障经常发生，然后我不知道去哪里查找或修复什么

到目前为止，我看过的地方包括

spark UI在端口4040上运行

/tmp/mesos/slaves/[slaveid]/frameworks/[frameworkid]/executors/[executorid]/runs/latest/{stderr，stdout}

在执行器“丢失”的节点上运行

/var/logs/mesos/mesos slaves.{INFO，WARN，ERROR，FATAL}

在失败的节点上

驱动程序节点上的

/tmp/spark events/[executorid]

这些地方有助于解决一些问题，但没有例如OOM错误，现在我不确定还有什么地方可以看