Deep learning 两个GPU相同,但在深度学习中表现不同

Deep learning 两个GPU相同,但在深度学习中表现不同,deep-learning,gpu,Deep Learning,Gpu,我在ubuntu 16.04中使用了两个相同的GPU,Geforce RTX 2080 ti,用于深入学习 从一周前开始,我突然遇到了GPU的麻烦 一个gpu工作得很好,但另一个gpu显示出错误 错误是“遇到非法内存访问” 我寻找解决这个问题的方法 我将CUDA版本更新为10.2,nvidia驱动程序版本更新为440.64.00。 我修改了/etc/X11/xorg.conf Section "Device" Identifier "Device0" Driver

我在ubuntu 16.04中使用了两个相同的GPU,Geforce RTX 2080 ti,用于深入学习

从一周前开始,我突然遇到了GPU的麻烦

一个gpu工作得很好,但另一个gpu显示出错误

错误是“遇到非法内存访问”

我寻找解决这个问题的方法 我将CUDA版本更新为10.2,nvidia驱动程序版本更新为440.64.00。 我修改了/etc/X11/xorg.conf

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    Option         "Interactive" "0"  # I added this**
EndSection
现在它似乎工作得很好,但是随机的。 几乎,它显示cuda运行时错误(700)gpu内存访问错误

当它运行良好时,我发现他们的表现不同

下面显示了一个正常的gpu

avg_loss 0.04434689141832936
max_acc 0.9197530864197536
avg_acc 0.6771604938271607
avg_loss 0.16801862874683451
max_acc 0.9197530864197536
avg_acc 0.541358024691358
另一个是异常的gpu,如下所示

avg_loss 0.04434689141832936
max_acc 0.9197530864197536
avg_acc 0.6771604938271607
avg_loss 0.16801862874683451
max_acc 0.9197530864197536
avg_acc 0.541358024691358
我输入了同样的命令,比如

CUDA_VISIBLE_DEVICES={gpu_num} python main.py --test config/www.yml
我也尝试过其他开源代码,但情况相同

也许异常的gpu坏了,但我不知道

那么,有没有人能解决gpu(非法内存访问)的问题

我认为,这不是驱动程序兼容性问题、代码或一些错误,因为问题只发生在异常的gpu上