Cluster computing PBS一直在中止我的工作_Cluster Computing_Job Scheduling_Hpc_Pbs_Numa

Cluster computing PBS一直在中止我的工作

cluster-computing

Cluster computing PBS一直在中止我的工作,cluster-computing,job-scheduling,hpc,pbs,numa,Cluster Computing,Job Scheduling,Hpc,Pbs,Numa,我要求一个处理器提供14个处理器（每个处理器有32个），如下所示： #PBS -l nodes=1:ppn=14 #PBS -l walltime=12:00:00 对于较低的ppn它几乎总是有效的，但一旦我得到高于14 ish的数字，作业就开始执行并立即终止tracejob毫无帮助： tracejob 14753.hpc2 Job: 14753.hpc2 01/21/2017 11:12:36 L Considering job to run 01/21/2017 11:12:

我要求一个处理器提供14个处理器（每个处理器有32个），如下所示：

#PBS -l nodes=1:ppn=14

#PBS -l walltime=12:00:00

对于较低的

ppn

它几乎总是有效的，但一旦我得到高于14 ish的数字，作业就开始执行并立即终止

tracejob

毫无帮助：

tracejob 14753.hpc2

Job: 14753.hpc2

01/21/2017 11:12:36  L    Considering job to run
01/21/2017 11:12:36  L    Job run
01/21/2017 11:12:36  M    Resource_List.place = scatter
01/21/2017 11:12:36  M    make_cpuset, vnode hpc2[0]:  hv_ncpus (2) > mvi_acpus (0) (you are not expected to understand this)
01/21/2017 11:12:36  M    start_exec, new_cpuset failed
01/21/2017 11:12:36  M    kill_job
01/21/2017 11:12:36  M    hpc2 cput= 0:00:00 mem=0kb
01/21/2017 11:12:37  M    Obit sent
01/21/2017 11:12:37  M    copy file request received
01/21/2017 11:12:37  M    staged 2 items out over 0:00:00
01/21/2017 11:12:37  M    delete job request received
01/21/2017 11:12:37  M    delete job request received
01/21/2017 11:12:38  M    no active tasks
01/21/2017 11:12:38  M    delete job request received

我有时成功地请求了更多的CPU，因此它不是完全确定的。有办法调试这个吗

作为一个侧节点，任何请求多个节点的作业都将永远位于队列中，并且永远不会启动，我不知道这是否相关。

您是否正在尝试执行“qrun”并强制尝试在指定的vnode上启动此作业

作为一种可能的解决方案，尝试重新启动MOM（面向机器的迷你服务器）或将共享设置为MOM上的独占（当然，您需要是特权用户才能这样做）。

您使用的是什么资源管理器和版本？调度程序也有同样的问题。