Ubuntu 在多个GPU上使用tensorflow进行训练时计算机崩溃

Ubuntu 在多个GPU上使用tensorflow进行训练时计算机崩溃,ubuntu,cuda,tensorflow,Ubuntu,Cuda,Tensorflow,我的服务器在使用多个GPU使用tensorflow进行培训时崩溃并自动重启 我的任务是: CUDA_VISIBLE_DEVICES=0 python train.py [LSTM training] CUDA_VISIBLE_DEVICES=1 python train.py [Another LSTM training] 当两个任务都在运行时,服务器崩溃并自动重新启动。我尝试使用不同的服务器,但所有服务器的行为都相同 我的硬件配置: 戴尔T7610服务器 2*E5-2609 CPU 1*NV

我的服务器在使用多个GPU使用tensorflow进行培训时崩溃并自动重启

我的任务是:

CUDA_VISIBLE_DEVICES=0 python train.py [LSTM training]
CUDA_VISIBLE_DEVICES=1 python train.py [Another LSTM training]
当两个任务都在运行时,服务器崩溃并自动重新启动。我尝试使用不同的服务器,但所有服务器的行为都相同

我的硬件配置:

戴尔T7610服务器
2*E5-2609 CPU
1*NVIDIA GTX 1080(英诺3D基础版) 1*NVIDIA GTX1080TI(千兆基金会基础版) 64G存储器

我的软件配置:

Ubuntu 14.04 LTS(Linux 3.13.0-87-generic)
Nvidia驱动程序版本378.13(来自ppa的Nvidia-378:图形驱动程序)
CUDA 8.0(CuDNN 5.1.5)
Python 2.7.13 | Anaconda 4.3.0(64位)
tensorflow-gpu-1.0.1(来自pip安装)

PSU的容量足以容纳图形卡。从memtest的结果来看,这不是一个与记忆有关的问题。没有任何有助于定位问题的
syslog
kern.log
log


我知道。但是,由于我与实验室人员共享机器,因此降低Linux内核级别的解决方案是不可接受的。

现在我已经解决了这个问题。我决定回答我自己的问题

这是一个电源问题。当GPU消耗的电量超过PSU所能提供的电量时,计算机将重新启动。尽管PSU具有足够的容量,但18A PCIe电缆的功率限制为217W


我的解决方法是使用两根PCIe电源线为GTX1080提供双6针到8针连接器。

可能也存在驱动程序问题。 运行“nvidia smi”时,能否显示正确的GPU设备名称?

对于1080Ti,它显示“图形设备”,对于1080,它显示“Geforce GTX 1080”。