Pyspark Spark应用程序在1小时后在EMR中突然终止,livy会话过期。原因是什么&;解决方案

Pyspark Spark应用程序在1小时后在EMR中突然终止,livy会话过期。原因是什么&;解决方案,pyspark,amazon-emr,livy,Pyspark,Amazon Emr,Livy,我正在AWS EMR集群上使用JupyterHub。我使用的是EMR版本5.16 我使用pyspark3笔记本提交了spark应用程序。 我的应用程序正在尝试将1TB的数据写入s3。 我正在使用EMR的自动缩放功能来缩放任务节点 硬件配置: 1.主节点:32 GB RAM,16核 2.核心节点:32 GB RAM,16核 3.任务节点:16GB,每个节点8核。(任务节点向上扩展15个) 我观察到Spark应用程序在运行50到60分钟后会被终止。 我尝试过调试: 1.我的集群仍然有扩大的空间。因此

我正在AWS EMR集群上使用JupyterHub。我使用的是EMR版本5.16

我使用pyspark3笔记本提交了spark应用程序。 我的应用程序正在尝试将1TB的数据写入s3。 我正在使用EMR的自动缩放功能来缩放任务节点

硬件配置: 1.主节点:32 GB RAM,16核 2.核心节点:32 GB RAM,16核 3.任务节点:16GB,每个节点8核。(任务节点向上扩展15个)

我观察到Spark应用程序在运行50到60分钟后会被终止。 我尝试过调试: 1.我的集群仍然有扩大的空间。因此,这不是一个资源短缺的问题。 2.Livy session也会被杀。 3.在作业日志中,我看到错误消息RECVD TERM SIGNAL“Shutdown hook 收到“

请注意: 1.我保留了:spark.dynamicAllocation.enabled=true“ 2.我正在Jupiter hub中使用带有用户模拟的Thread fair调度程序


你能帮我理解这个问题和解决办法吗?

我想我也遇到了同样的问题,我找到了解决办法,多亏了这个

问题来自Livy配置参数
Livy.server.session.timeout
,该参数将会话的超时默认设置为1小时

您应该通过在EMR集群的配置中添加以下行来设置它

[{'classification': 'livy-conf','Properties': {'livy.server.session.timeout':'5h'}}]

这为我解决了这个问题。

嘿,你找到解决这个问题的方法了吗?