Sockets sbatch:错误:批作业提交失败:运行Snakemake时,发送/接收操作的套接字超时
我在使用slurm的HPC上运行snakemake管道。管道相当长,由约22个台阶组成。snakemake在尝试提交作业时会定期遇到问题。这是一个错误Sockets sbatch:错误:批作业提交失败:运行Snakemake时,发送/接收操作的套接字超时,sockets,slurm,snakemake,sbatch,Sockets,Slurm,Snakemake,Sbatch,我在使用slurm的HPC上运行snakemake管道。管道相当长,由约22个台阶组成。snakemake在尝试提交作业时会定期遇到问题。这是一个错误 sbatch:错误:批作业提交失败:发送/接收操作时套接字超时 提交作业脚本时出错(退出代码1): 我使用以下snakemake调用通过sbatch文件运行管道 snakemake-j999-p--cluster-config cluster.json--cluster'sbatch--account{cluster.account}--job
sbatch:错误:批作业提交失败:发送/接收操作时套接字超时
提交作业脚本时出错(退出代码1):
我使用以下snakemake调用通过sbatch文件运行管道
snakemake-j999-p--cluster-config cluster.json--cluster'sbatch--account{cluster.account}--job name{cluster.job name}--ntasks per node{cluster.ntasks per node}--cpu per task{threads}--mem cluster.mem partition partition{cluster.partition}--time{cluster.time}--mail user{cluster.mail user}--mail type{cluster.mail type}--error{cluster.error}--输出{cluster.output}'
这不仅会导致snakemake sbatch作业的输出,还会导致snakemake创建的作业的输出。上述错误出现在sbatch文件的slurm.out中
错误指示的特定作业步骤将成功运行,并给出输出,但管道失败。作业步骤的日志显示作业id运行时没有问题。我在谷歌上搜索了此错误,它似乎经常发生在slurm中,尤其是当调度程序处于高IO下时,这表明这将是不可避免的且经常发生的错误ar事件。我希望有人遇到了这个问题,可以提供解决方案建议,这样整个管道就不会失败。snakemake有一个选项,默认参数为10,可以选择
--max jobs per second
和--max status checks per second
。也许可以尝试降低它们以减少sc的压力Scheduler?另外,可能尝试减少-j 999
?可能使用-j 999
snakemake试图提交太多的作业以满足群集的容量?添加--max jobs per second和--max status checks per second并减少到5个,修复了此问题。感谢您的帮助!