Configuration sbatch:错误:批作业提交失败:请求的节点配置不可用

Configuration sbatch:错误:批作业提交失败:请求的节点配置不可用,configuration,gpu,nodes,slurm,sbatch,Configuration,Gpu,Nodes,Slurm,Sbatch,问题与分配给作业的CPU数量无关。在这个问题之前,我用Nvidia驱动程序配置了一个错误,在我通过“NvidiaLIUX-X86Y64-41079Run-Run-DRM”解决这个错误之后,我无法通过“英伟达SMI”来检测GPU。非常感谢您的帮助 PS 在出现第一个问题之前,我可以顺利地完成类似的工作 command: sbatch md.s sbatch: error: Batch job submission failed: Requested node configuration is no

问题与分配给作业的CPU数量无关。在这个问题之前,我用Nvidia驱动程序配置了一个错误,在我通过“NvidiaLIUX-X86Y64-41079Run-Run-DRM”解决这个错误之后,我无法通过“英伟达SMI”来检测GPU。非常感谢您的帮助

PS 在出现第一个问题之前,我可以顺利地完成类似的工作

command: sbatch md.s
sbatch: error: Batch job submission failed: Requested node configuration is not available


command: 'sinfo -o "%g %.10R %.20l %.10c"'
GROUPS  PARTITION            TIMELIMIT       CPUS
all gpucompute             infinite         32


command:'sinfo -Nl'
Thu Sep 24 21:06:35 2020
NODELIST        NODES   PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FE REASON              
fwb-lab-tesla1      1 gpucompute*       down*   32   32:1:1  64000        0      1   (null) Not responding     


md.s
!/bin/bash

SBATCH --job-name=Seq1_md1
SBATCH --nodes=1
SBATCH --cpus-per-task=2
SBATCH --mem=3GB
SBATCH --mem-per-cpu=1gb
SBATCH --gres=gpu:Titan
SBATCH --mail-user=shirin.jamshidi@kcl.ac.uk
SBATCH --mail-type=ALL

module purge
module load amber/openmpi/intel/16.06   
Navigate where data is
cd /home/SCRATCH/Seq1

mpirun -np 1 pmemd.cuda.MPI -O -i md1.in -o Seq1_md1.out -p Seq1.prmtop -c Seq1_min2.rst -r Seq1_md1.rst -x Seq1_md1.mdcrd -e Seq1_md1.mden -ref Seq1_min2.rst > md1.log

您使用
sinfo
命令将节点报告为
down*
,这意味着它被slurm标记为down,并且无法访问slurmd。因此,节点肯定有问题,您无法从用户端解决