Apache spark 如何调试挂起阶段为何处于未知状态?
我有一个Spark批处理作业,它读取一些json文件并将其写入配置单元,然后查询其他配置单元表,进行计算并将Orc格式的输出写回配置单元 我所经历的是,乔布斯被困在一个处于等待状态的阶段。 DAG如下所示: 我使用的是Apache spark 如何调试挂起阶段为何处于未知状态?,apache-spark,hadoop,hive,apache-spark-sql,yarn,Apache Spark,Hadoop,Hive,Apache Spark Sql,Yarn,我有一个Spark批处理作业,它读取一些json文件并将其写入配置单元,然后查询其他配置单元表,进行计算并将Orc格式的输出写回配置单元 我所经历的是,乔布斯被困在一个处于等待状态的阶段。 DAG如下所示: 我使用的是Hadoop 2.7.3.2.6.5.0-292,Spark正在运行 我查看了纱线日志、火花事件日志,但没有发现问题。 只是重新运行作业会导致相同的行为 问题是:阶段中的未知状态意味着什么,如何调试作业为什么在其中 该阶段是作业的最后阶段吗?通常,最后阶段是如果作业/查询或逻辑有
Hadoop 2.7.3.2.6.5.0-292
,Spark正在运行
我查看了纱线日志、火花事件日志,但没有发现问题。
只是重新运行作业会导致相同的行为
问题是:阶段中的未知状态意味着什么,如何调试作业为什么在其中 该阶段是作业的最后阶段吗?通常,最后阶段是如果作业/查询或逻辑有一些问题,它将失败。执行者日志应该会给你更多的见解。你的问题中没有足够的信息来进行任何有意义的猜测。首先,你能发布你工作的DAG吗?@mazaneicha我在寻找一个更一般的方法,尽管如此,我还是用DAG信息更新了这个问题。如果还需要其他任何东西,请告诉我。对于调试此问题的一般方法,您可以查看Answer抱歉,我假设您向我们展示了一个特定阶段,您一直在寻找特定问题的解决方案,而不是一般故障排除技术的讨论。