Apache spark pyspark作业超时

Apache spark pyspark作业超时,apache-spark,pyspark,Apache Spark,Pyspark,TL;博士 有没有办法让pyspark作业超时?我希望在群集模式下运行的spark作业在运行时间超过预先指定的时间时自动终止 较长版本: 中列出的神秘超时最多为120秒,但其中一个为无穷大,但此超时仅在spark.DynamicLocation.enabled设置为true时使用,但在默认情况下(我没有接触此群集上的任何配置参数),它为false 我想知道,因为我有一个代码,对于特定的病理输入,它的运行速度会非常慢。对于预期输入,工作将在一小时内结束。检测病理输入与试图解决问题一样困难,因此我无

TL;博士

有没有办法让pyspark作业超时?我希望在群集模式下运行的spark作业在运行时间超过预先指定的时间时自动终止

较长版本:

中列出的神秘超时最多为120秒,但其中一个为无穷大,但此超时仅在spark.DynamicLocation.enabled设置为true时使用,但在默认情况下(我没有接触此群集上的任何配置参数),它为false

我想知道,因为我有一个代码,对于特定的病理输入,它的运行速度会非常慢。对于预期输入,工作将在一小时内结束。检测病理输入与试图解决问题一样困难,因此我无法选择进行巧妙的预处理。代码的细节既无聊又无关紧要,因此我不想让您阅读它们=)

我正在使用pyspark,所以我打算像这样装饰导致挂起的函数,但是这个解决方案似乎在集群模式下不起作用。我通过一个bash脚本通过spark submit调用我的spark代码,但据我所知,bash在spark作业运行时“进入睡眠状态”,并且只有在spark作业终止后才能获得控制权,所以我认为这不是一个选项


事实上,如果我做了一些聪明的事情,bash可能是一个解决方案,但是我必须为这项工作获取驱动程序id,比如,现在我想“对于应该内置的超时这样简单的事情,这太多的思考和键入了。”

您可以设置一个经典的python警报。然后在handler函数中,您可以引发异常或使用
sys.exit()
函数来完成驱动程序代码。当驱动程序完成时,纱线会破坏整个应用程序


您可以在文档中找到示例用法:

您可以设置一个经典的python报警。然后在handler函数中,您可以引发异常或使用
sys.exit()
函数来完成驱动程序代码。当驱动程序完成时,纱线会破坏整个应用程序


您可以在文档中找到示例用法:

您共享的详细信息越多,我们就越有可能帮助您。我只是想知道,如果spark作业在群集模式下运行的时间超过某个指定时间,是否有配置参数会自动终止该作业。我添加了一些有关我试过的东西!您共享的详细信息越多,我们就越有可能帮助您。我只想知道,如果spark作业在群集模式下运行的时间超过某个指定时间,是否有配置参数会自动终止该作业。我添加了一些有关我尝试过的事情的更多相关信息!我可以再试一次。我试着在这里仿效这个例子,但这不起作用。我可以再试一次。我试着在这里仿效这个例子,但这不起作用。