Dask:存储网络速度是否会导致工人死亡

Dask:存储网络速度是否会导致工人死亡,dask,dask-distributed,dask-jobqueue,Dask,Dask Distributed,Dask Jobqueue,我正在运行一个通过存储网络写入大型文件的进程。我可以使用一个简单的循环来运行这个过程,并且没有失败。我可以在非高峰时间使用分布式和jobqueue运行,并且没有工人出现故障。然而,当我在高峰时间运行相同的命令时,我会让工人自杀 我对这项任务有足够的记忆力,而且有大量的工作人员,所以我没有排队 错误日志通常有一堆超过垃圾收集限制的日志,随后有一个工作进程被信号9杀死。信号9表明进程违反了某些系统限制,而不是Dask决定让该工作进程死亡。由于这只发生在繁忙时间的高磁盘IO上,因此我确实同意网络存储可

我正在运行一个通过存储网络写入大型文件的进程。我可以使用一个简单的循环来运行这个过程,并且没有失败。我可以在非高峰时间使用分布式和jobqueue运行,并且没有工人出现故障。然而,当我在高峰时间运行相同的命令时,我会让工人自杀

我对这项任务有足够的记忆力,而且有大量的工作人员,所以我没有排队


错误日志通常有一堆超过垃圾收集限制的日志,随后有一个工作进程被信号9杀死。信号9表明进程违反了某些系统限制,而不是Dask决定让该工作进程死亡。由于这只发生在繁忙时间的高磁盘IO上,因此我确实同意网络存储可能是罪魁祸首,例如,大量写入已被缓冲,但没有通过相对较低的带宽被清除


Dask还使用本地存储来存储临时文件,“本地”可能是网络存储。如果节点上有真正的本地磁盘,则应使用该磁盘,如果没有,则可能完全关闭磁盘溢出

如果我打开磁盘溢出m,我是否需要增加内存?也许,或者某个给定的工作人员将停止接受新任务,直到内存被释放。这似乎是一种神奇。分布式:worker:memory:target:false#不溢出到磁盘溢出:false#不溢出到磁盘有没有办法找出作业中失败的参数?我假设当worker死亡时任务会丢失