Linux 如何找到与sbatch作业相关的流程?
当我在多节点系统上使用Linux 如何找到与sbatch作业相关的流程?,linux,process,slurm,Linux,Process,Slurm,当我在多节点系统上使用sbatch启动作业时,一些进程正在相关节点上启动 我怎样才能找到这些节点上运行的进程(进程ID),这些节点是由于sbatch运行而启动的 我查看了slurm文档,但没有找到任何显示相关流程的命令(例如scocontrol或sstat) 我们的想法是找到进程ID,然后使用Linux工具调试被“卡住”的进程(即没有输出等),也许还可以找出这个特定进程在做什么。您要查找的是scocontrol listpids。从: listpids[job_id[.step_id]][Nod
sbatch
启动作业时,一些进程正在相关节点上启动
我怎样才能找到这些节点上运行的进程(进程ID),这些节点是由于sbatch
运行而启动的
我查看了slurm文档,但没有找到任何显示相关流程的命令(例如scocontrol
或sstat
)
我们的想法是找到进程ID,然后使用Linux工具调试被“卡住”的进程(即没有输出等),也许还可以找出这个特定进程在做什么。您要查找的是
scocontrol listpids
。从:
listpids[job_id[.step_id]][NodeName]
打印流程列表
作业步骤中的ID(如果提供了JOBID.STEPID)或所有作业
作业中的步骤(如果提供了作业id),或所有作业中的所有作业步骤
本地节点上作业的数量(如果未提供作业id或作业id为
"*"). 这将仅适用于scontrol所在节点上的进程
运行,并且仅适用于由Slurm及其
后代。请注意,某些Slurm配置(ProctrackType值
无法识别与作业或作业关联的所有流程
工作步骤。请注意,只有当您
在同一台主机上运行多个slurmd守护进程。
通常,一台主机上的多个slurmd守护进程仅由
冷淡的开发者
只需SSH到一个计算节点并运行scoontrollistpids
。它将输出一个与PID/JOBID对应的表格
[root@node003 ~]# scontrol listpids | column -t
PID JOBID STEPID LOCALID GLOBALID
269852 68706234 batch 0 0
269998 68706234 batch - -
[etc.]
我在这里使用column
命令来更好地对齐列并简化阅读