Deep learning 两个GPU相同,但在深度学习中表现不同
我在ubuntu 16.04中使用了两个相同的GPU,Geforce RTX 2080 ti,用于深入学习 从一周前开始,我突然遇到了GPU的麻烦 一个gpu工作得很好,但另一个gpu显示出错误 错误是“遇到非法内存访问” 我寻找解决这个问题的方法 我将CUDA版本更新为10.2,nvidia驱动程序版本更新为440.64.00。 我修改了/etc/X11/xorg.confDeep learning 两个GPU相同,但在深度学习中表现不同,deep-learning,gpu,Deep Learning,Gpu,我在ubuntu 16.04中使用了两个相同的GPU,Geforce RTX 2080 ti,用于深入学习 从一周前开始,我突然遇到了GPU的麻烦 一个gpu工作得很好,但另一个gpu显示出错误 错误是“遇到非法内存访问” 我寻找解决这个问题的方法 我将CUDA版本更新为10.2,nvidia驱动程序版本更新为440.64.00。 我修改了/etc/X11/xorg.conf Section "Device" Identifier "Device0" Driver
Section "Device"
Identifier "Device0"
Driver "nvidia"
VendorName "NVIDIA Corporation"
Option "Interactive" "0" # I added this**
EndSection
现在它似乎工作得很好,但是随机的。
几乎,它显示cuda运行时错误(700)gpu内存访问错误
当它运行良好时,我发现他们的表现不同
下面显示了一个正常的gpu
avg_loss 0.04434689141832936
max_acc 0.9197530864197536
avg_acc 0.6771604938271607
avg_loss 0.16801862874683451
max_acc 0.9197530864197536
avg_acc 0.541358024691358
另一个是异常的gpu,如下所示
avg_loss 0.04434689141832936
max_acc 0.9197530864197536
avg_acc 0.6771604938271607
avg_loss 0.16801862874683451
max_acc 0.9197530864197536
avg_acc 0.541358024691358
我输入了同样的命令,比如
CUDA_VISIBLE_DEVICES={gpu_num} python main.py --test config/www.yml
我也尝试过其他开源代码,但情况相同
也许异常的gpu坏了,但我不知道
那么,有没有人能解决gpu(非法内存访问)的问题
我认为,这不是驱动程序兼容性问题、代码或一些错误,因为问题只发生在异常的gpu上