Python Dask依赖图的容错性

Python Dask依赖图的容错性,python,dask,dask-distributed,Python,Dask,Dask Distributed,我有一个小集群,我使用以下方法在其上部署dask图: from dask.distributed import Client ... client = Client(f'{scheduler_ip}:{scheduler_port}', set_as_default=False) client.get(workflow, final_node) 当然,在工作流程中,我有一堆并行运行的任务。但是,有时,一个工人正在运行的模块中会出现错误。一旦该模块出现故障,它就会返回到调度程序,然后调度程序停止

我有一个小集群,我使用以下方法在其上部署dask图:

from dask.distributed import Client
...
client = Client(f'{scheduler_ip}:{scheduler_port}', set_as_default=False)
client.get(workflow, final_node)
当然,在工作流程中,我有一堆并行运行的任务。但是,有时,一个工人正在运行的模块中会出现错误。一旦该模块出现故障,它就会返回到调度程序,然后调度程序停止并行运行的其他工作(即使其他工作不依赖于此)。它在中途阻止了他们


是否允许其他程序完成,然后失败,而不是立即关闭它们?

客户端.get函数是全部或全部。您可能应该看看futures界面。在这里,您将启动许多计算,这些计算碰巧相互依赖。那些能完成的将会完成


请参见

重试是一个选项,还是存在肯定会失败的任务?@mdurant肯定会失败(有时)。我们希望其他任务尽可能多地完成,因为它们产生了我们可以使用的资产。当它发生故障并立即停止所有其他工作时,这些资产不会被创建。