Debian Torque Pbs计划程序Q队列中的所有作业
我是torque/pbs调度器的新手,我在一台debian 8机器上的服务器上安装了它,并在另一台使用debian 8的计算节点上的客户端上安装了它 在我的服务器上运行pbs_server和pbs_sched,在我的计算节点上运行pbs_mom,每个日志中都没有错误,pbsnode-a看起来不错:Debian Torque Pbs计划程序Q队列中的所有作业,debian,cluster-computing,pbs,torque,Debian,Cluster Computing,Pbs,Torque,我是torque/pbs调度器的新手,我在一台debian 8机器上的服务器上安装了它,并在另一台使用debian 8的计算节点上的客户端上安装了它 在我的服务器上运行pbs_server和pbs_sched,在我的计算节点上运行pbs_mom,每个日志中都没有错误,pbsnode-a看起来不错: root@debian8s-1:[torque]>pbsnodes -a debian8s-2 state = free power_state = Running
root@debian8s-1:[torque]>pbsnodes -a
debian8s-2
state = free
power_state = Running
np = 4
ntype = cluster
status = rectime=1458048686,macaddr=00:14:5d:0f:8d:08,cpuclock=Fixed,varattr=,jobs=,state=free,netload=109918452,gres=,loadave=0.32,ncpus=4,physmem=16432364kb,availmem=20066372kb,totmem=20337896kb,idletime=13385,nusers=1,nsessions=3,sessions=989 992 998,uname=Linux debian8s-2 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19) x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
我提交的每一份工作都被困在Q中:
root@debian8s-1:[torque]>qstat
Job ID Name User Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
3.debian8s-1 STDIN tototo 0 Q batch
5.debian8s-1 my_job tototo 0 Q batch
6.debian8s-1 STDIN tototo 0 Q batch
7.debian8s-1 STDIN tototo 0 Q batch
8.debian8s-1 STDIN tototo 0 Q batch
我查找了文档,但没有找到关于这个问题的任何信息,有人知道我遗漏了什么吗
谢谢。根据Dmitri的评论,
tracejob
和areqstat-f
都是好地方。当然,您需要验证pbs_sched
是否实际正在运行;如果是这种情况,那么您需要通过检查pbs\u mom
日志进行故障排除,默认情况下,您可以在计算节点上的/var/spool/torque/mom\u logs/
中找到这些日志(如果有疑问,请运行pbs\u mom--about
了解安装详细信息。此外,特别是在作业无法启动的情况下,您可能必须在mom主机上的/var/log/messages
中查找pbs\u mom
日志项。您可以提交一个测试作业,以便在特定节点上运行,如下所示:
echo sleep 600 | qsub-l nodes=cn001:ppn=1,walltime=630
然后,您可以通过发出qrun
此外,您可以在节点上发出
kill-SIGUSR1$(pgrep pbs_mom)
以增加日志记录(或momctl-q loglevel
以查看当前级别,以及momctl-q loglevel=6
以更改它).首先检查计划程序日志。您可以使用tracejob 3
或qstat-f 3
获取作业信息#3.使用qmgr-c打印服务器打印服务器和队列配置
。发布您的发现。