Deep learning 两个GPU相同，但在深度学习中表现不同_Deep Learning_Gpu

Deep learning 两个GPU相同，但在深度学习中表现不同

deep-learning

Deep learning 两个GPU相同，但在深度学习中表现不同,deep-learning,gpu,Deep Learning,Gpu,我在ubuntu 16.04中使用了两个相同的GPU，Geforce RTX 2080 ti，用于深入学习从一周前开始，我突然遇到了GPU的麻烦一个gpu工作得很好，但另一个gpu显示出错误错误是“遇到非法内存访问” 我寻找解决这个问题的方法我将CUDA版本更新为10.2，nvidia驱动程序版本更新为440.64.00。我修改了/etc/X11/xorg.conf Section "Device" Identifier "Device0" Driver

我在ubuntu 16.04中使用了两个相同的GPU，Geforce RTX 2080 ti，用于深入学习

从一周前开始，我突然遇到了GPU的麻烦

一个gpu工作得很好，但另一个gpu显示出错误

错误是“遇到非法内存访问”

我寻找解决这个问题的方法我将CUDA版本更新为10.2，nvidia驱动程序版本更新为440.64.00。我修改了/etc/X11/xorg.conf

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    Option         "Interactive" "0"  # I added this**
EndSection

现在它似乎工作得很好，但是随机的。几乎，它显示cuda运行时错误（700）gpu内存访问错误

当它运行良好时，我发现他们的表现不同

下面显示了一个正常的gpu

avg_loss 0.04434689141832936
max_acc 0.9197530864197536
avg_acc 0.6771604938271607

avg_loss 0.16801862874683451
max_acc 0.9197530864197536
avg_acc 0.541358024691358

另一个是异常的gpu，如下所示

avg_loss 0.04434689141832936
max_acc 0.9197530864197536
avg_acc 0.6771604938271607

avg_loss 0.16801862874683451
max_acc 0.9197530864197536
avg_acc 0.541358024691358

我输入了同样的命令，比如

CUDA_VISIBLE_DEVICES={gpu_num} python main.py --test config/www.yml

我也尝试过其他开源代码，但情况相同

也许异常的gpu坏了，但我不知道

那么，有没有人能解决gpu（非法内存访问）的问题

我认为，这不是驱动程序兼容性问题、代码或一些错误，因为问题只发生在异常的gpu上