Apache spark 在哪里可以找到Spark引发的异常';遗嘱执行人

Apache spark 在哪里可以找到Spark引发的异常';遗嘱执行人,apache-spark,pyspark,Apache Spark,Pyspark,我们得到了一些错误的看法,但无法确定根本原因 下面是一个可以创建错误的简化脚本 filenames = "hdfs://myfile1,hdfs://myfile2" sc.textFile(filenames).first() 作为一个实验,当我故意在1GB数据上运行spark作业时,只有1mb的spark.executor.memory,驱动程序会打印以下错误消息 16/04/28 17:28:54 INFO TaskSetManager: Starting task 0.0 in sta

我们得到了一些错误的看法,但无法确定根本原因

下面是一个可以创建错误的简化脚本

filenames = "hdfs://myfile1,hdfs://myfile2"
sc.textFile(filenames).first()
作为一个实验,当我故意在1GB数据上运行spark作业时,只有1mb的
spark.executor.memory
,驱动程序会打印以下错误消息

16/04/28 17:28:54 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, 
host.addr, partition 0,ANY, 2257 bytes)
16/04/28 17:29:28 INFO MesosSchedulerBackend: Executor lost: 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5, marking slave 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5 as lost
16/04/28 17:29:28 INFO MesosSchedulerBackend: Mesos slave lost: 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5
16/04/28 17:29:28 ERROR TaskSchedulerImpl: Lost executor 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5 on host.addr: Unknown executor exit code (256) (died from signal 128?)
16/04/28 17:29:28 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, host.addr): ExecutorLostFailure (executor 4e199be7-a0bc-407d-ba70-4147e08d6c39-S5 exited caused by one of the running tasks) Reason: Unknown executor exit code (256) (died from signal 128?)
自动重试几次后,整个作业都失败了。这在Pyspark和Scala spark中都会发生

我可以查看哪些适当的日志来确定此执行器失败的确切原因?

对于这个受控案例,我知道内存不足是原因。然而,这些和其他带有不同退出代码的故障经常发生,然后我不知道去哪里查找或修复什么

到目前为止,我看过的地方包括

  • spark UI在端口4040上运行
  • /tmp/mesos/slaves/[slaveid]/frameworks/[frameworkid]/executors/[executorid]/runs/latest/{stderr,stdout}
    在执行器“丢失”的节点上运行
  • /var/logs/mesos/mesos slaves.{INFO,WARN,ERROR,FATAL}
    在失败的节点上
  • 驱动程序节点上的
    /tmp/spark events/[executorid]
  • 这些地方有助于解决一些问题,但没有例如OOM错误,现在我不确定还有什么地方可以看