Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/flutter/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Debian Torque Pbs计划程序Q队列中的所有作业_Debian_Cluster Computing_Pbs_Torque - Fatal编程技术网

Debian Torque Pbs计划程序Q队列中的所有作业

Debian Torque Pbs计划程序Q队列中的所有作业,debian,cluster-computing,pbs,torque,Debian,Cluster Computing,Pbs,Torque,我是torque/pbs调度器的新手,我在一台debian 8机器上的服务器上安装了它,并在另一台使用debian 8的计算节点上的客户端上安装了它 在我的服务器上运行pbs_server和pbs_sched,在我的计算节点上运行pbs_mom,每个日志中都没有错误,pbsnode-a看起来不错: root@debian8s-1:[torque]>pbsnodes -a debian8s-2 state = free power_state = Running

我是torque/pbs调度器的新手,我在一台debian 8机器上的服务器上安装了它,并在另一台使用debian 8的计算节点上的客户端上安装了它

在我的服务器上运行pbs_server和pbs_sched,在我的计算节点上运行pbs_mom,每个日志中都没有错误,pbsnode-a看起来不错:

root@debian8s-1:[torque]>pbsnodes -a
debian8s-2
     state = free
     power_state = Running
     np = 4
     ntype = cluster
     status = rectime=1458048686,macaddr=00:14:5d:0f:8d:08,cpuclock=Fixed,varattr=,jobs=,state=free,netload=109918452,gres=,loadave=0.32,ncpus=4,physmem=16432364kb,availmem=20066372kb,totmem=20337896kb,idletime=13385,nusers=1,nsessions=3,sessions=989 992 998,uname=Linux debian8s-2 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19) x86_64,opsys=linux
     mom_service_port = 15002
     mom_manager_port = 15003
我提交的每一份工作都被困在Q中:

root@debian8s-1:[torque]>qstat
Job ID                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
3.debian8s-1               STDIN            tototo                 0 Q batch          
5.debian8s-1               my_job           tototo                 0 Q batch          
6.debian8s-1               STDIN            tototo                 0 Q batch          
7.debian8s-1               STDIN            tototo                 0 Q batch          
8.debian8s-1               STDIN            tototo                 0 Q batch 
我查找了文档,但没有找到关于这个问题的任何信息,有人知道我遗漏了什么吗


谢谢。

根据Dmitri的评论,
tracejob
和are
qstat-f
都是好地方。当然,您需要验证
pbs_sched
是否实际正在运行;如果是这种情况,那么您需要通过检查
pbs\u mom
日志进行故障排除,默认情况下,您可以在计算节点上的
/var/spool/torque/mom\u logs/
中找到这些日志(如果有疑问,请运行
pbs\u mom--about
了解安装详细信息。此外,特别是在作业无法启动的情况下,您可能必须在mom主机上的
/var/log/messages
中查找
pbs\u mom
日志项。您可以提交一个测试作业,以便在特定节点上运行,如下所示:

echo sleep 600 | qsub-l nodes=cn001:ppn=1,walltime=630

然后,您可以通过发出
qrun


此外,您可以在节点上发出
kill-SIGUSR1$(pgrep pbs_mom)
以增加日志记录(或
momctl-q loglevel
以查看当前级别,以及
momctl-q loglevel=6
以更改它).

首先检查计划程序日志。您可以使用
tracejob 3
qstat-f 3
获取作业信息#3.使用
qmgr-c打印服务器打印服务器和队列配置
。发布您的发现。