Parallel processing 无法在SGE群集中chdir到/path/to/job\u submit\u dir/

Parallel processing 无法在SGE群集中chdir到/path/to/job\u submit\u dir/,parallel-processing,sungridengine,Parallel Processing,Sungridengine,我使用qsub向SGE集群提交作业。在作业文件中,定义了以下内容: #!/bin/bash # #$ -V #$ -cwd #$ -j y #$ -S /bin/bash # -cwd表示作业将在作业文件所在的目录中运行。所有作业文件都包含上述作业设置 一些作业已提交并且可以正确运行,但其中一些作业已提交,并且qstat的状态为Eqw,当使用qstat-j job_id显示详细状态时,会显示: failed changing in

我使用
qsub
向SGE集群提交作业。在作业文件中,定义了以下内容:

    #!/bin/bash
    #
    #$ -V
    #$ -cwd
    #$ -j y
    #$ -S /bin/bash
    #
-cwd
表示作业将在作业文件所在的目录中运行。所有作业文件都包含上述作业设置

一些作业已提交并且可以正确运行,但其中一些作业已提交,并且
qstat
的状态为
Eqw
,当使用
qstat-j job_id
显示详细状态时,会显示:

    failed changing into working directory because: 
    error: can't chdir to /path/to/job_submit_dir
但有时我会进入目录,重新提交作业,它似乎起作用了

我在谷歌上搜索过,并提供了一个解决方案,但它对我的设置不起作用


任何人都可以提供一些建议吗?

看来,对于此实例,此错误问题可能是由于对网络装载存储的过度写入造成的:


要解决此问题,请尝试将输出重定向到每个执行节点上的本地存储或
/dev/null

是否总是在同一执行节点上发生这种情况?如果是,您是否具有对该节点的SSH访问权限?如果是这样的话,请登录看看你是否可以访问该目录。另外,也许这是你的问题:嗨,@Vince,谢谢你的回复!我是一个普通用户,可以在控制台/管理节点中提交作业,该节点主要用于提交作业。但是我不能SSH到计算节点。可能需要在这些计算节点之间使用SSH,或者MPI程序可能会失败。另一点是,存储磁盘独立于控制台节点和计算节点,它们安装在所有这些节点中。因此,所有作业/任务都访问这个单独装载的磁盘,可能存储磁盘是集群中的NFS共享。是的,我通常提交许多作业,这些作业将经常访问磁盘。也许是因为这些高吞吐量的工作让SGE集群有了一些抱怨。嗨,@Vince,我想你提供的链接就是重点。你能帮我把你的答复写在回信里吗?我会接受的。非常感谢!吞吐量和通信问题一直是集群系统的关键。谢谢您的推荐!是的,当我将
-jy-o/dev/null
添加到提交选项中时,问题仍然存在。当我使用
qstat
显示作业状态时,它会显示:
stdout\u path\u列表:NONE:NONE:/dev/null
,这意味着SGE将stdout输出到
/dev/null
。但它仍然显示了文章中描述的问题。另一个问题是,每个执行节点都将存储节点装载为NFS磁盘。我无法将输出重定向到每个执行节点上的本地存储。脚本是否高于您正在使用的实际脚本或示例?如果没有,请发布您正在使用的确切脚本以及脚本执行的复制错误的示例程序。是的,这是所使用的确切脚本。提交命令是
qsub-o/dev/null job.sh
您要提交多少个作业?如果很多,那么同样的事情会发生在更少的工作上吗?