Ubuntu NVRM:RmInitAdapter失败:Xid:79,GPU已从总线上脱落

Ubuntu NVRM:RmInitAdapter失败:Xid:79,GPU已从总线上脱落,ubuntu,crash,driver,nvidia,multi-gpu,Ubuntu,Crash,Driver,Nvidia,Multi Gpu,有两次,当我使用4x1080ti完成培训模型时,服务器出现故障。为什么服务器会崩溃 我得到sysylog,发现Nvidia驱动程序或gpu有问题 系统日志:(和) [第二个] 9月6日21:11:41 gpu-8-server-intesight内核:[31429.221258]NVRM: rMitAdapter失败!(0x30:0xffff:682) 9月6日21:11:41 gpu-8-server-intesight内核:[31429.221337]NVRM: 带有次要编号0的设备的rm_

有两次,当我使用4x1080ti完成培训模型时,服务器出现故障。为什么服务器会崩溃

我得到sysylog,发现Nvidia驱动程序或gpu有问题

系统日志:(和)

[第二个]

9月6日21:11:41 gpu-8-server-intesight内核:[31429.221258]NVRM: rMitAdapter失败!(0x30:0xffff:682)

9月6日21:11:41 gpu-8-server-intesight内核:[31429.221337]NVRM: 带有次要编号0的设备的rm_init_适配器失败

9月6日21:13:54 gpu-8-server-intesight内核:[31562.154256]NVRM: rMitAdapter失败!(0x30:0xffff:682)

9月6日21:13:54 gpu-8-server-intesight内核:[31562.154306]NVRM: 带有次要编号1的设备的rm_init_适配器失败

[第一个]

9月6日02:48:40 gpu-8-server-intesight内核:[557998.990374]NVRM: PCI上的GPU:0000:04:00:GPU-bc54db68-a3cb-54e9-7287-b95c69e41cf1

9月6日02:48:40 gpu-8-server-intesight内核:[557998.990375]NVRM: GPU板序列号:

9月6日02:48:40 gpu-8-server-intesight内核:[557998.990376]NVRM: Xid(PCI:0000:04:00):79,GPU已从总线上脱落

9月6日02:48:40 gpu-8-server-intesight内核:[557998.990377]NVRM: 0000:04:00.0的GPU已从总线上脱落

9月6日02:48:40 gpu-8-server-intesight内核:[557998.990377]NVRM: GPU在船上

9月6日02:48:40 gpu-8-server-intesight内核:[557998.990655]NVRM:A GPU崩溃转储已创建。如果可能,请运行

9月6日02:48:40 gpu-8-server-intesight内核:[557998.990655]NVRM: nvidia-bug-report.sh以root用户身份在

9月6日02:48:40 gpu-8-server-intesight内核:[557998.990655]NVRM: 英伟达内核模块已卸载。

9月6日02:48:41 gpu-8-server-intesight内核:[557999.884383]NVRM: 0000:04:00.0的GPU已从总线上脱落

9月6日02:48:41 gpu-8-server-intesight内核:[557999.901942]NVRM:A GPU崩溃转储已创建。如果可能,请运行

9月6日02:48:41 gpu-8-server-intesight内核:[557999.901942]NVRM: nvidia-bug-report.sh以root用户身份在

9月6日02:48:41 gpu-8-server-intesight内核:[557999.901942]NVRM: 英伟达内核模块已卸载。

9月6日02:48:41 gpu-8-server-intesight内核:[558000.356948]NVRM: rMitAdapter失败!(0x30:0xffff:682)

9月6日02:48:41 gpu-8-server-intesight内核:[558000.444379]NVRM: 带有次要编号0的设备的rm_init_适配器失败

9月6日02:48:45 gpu-8-server-intesight内核:[558004.604173]NVRM: 请求\u irq()失败(-22)

9月6日02:48:48 gpu-8-server-intesight内核:[558007.497475]NVRM: rMitAdapter失败!(0x23:0x56:468)

9月6日02:48:48 gpu-8-server-intesight内核:[558007.497489]NVRM: 带有次要编号0的设备的rm_init_适配器失败

9月6日02:48:50 gpu-8-server-intesight内核:[558008.878985]NVRM: 请求\u irq()失败(-22)

9月6日02:48:53 gpu-8-server-intesight内核:[558011.735642]NVRM: rMitAdapter失败!(0x23:0x56:468)

9月6日02:48:53 gpu-8-server-intesight内核:[558011.735658]NVRM: 带有次要编号0的设备的rm_init_适配器失败

9月6日02:48:54 gpu-8-server-intesight内核:[558013.108772]NVRM: 请求\u irq()失败(-22)

9月6日02:48:55 gpu-8-server-intesight内核:[558013.757168]错误: 无法处理0000000 132081000处的内核分页请求

9月6日02:48:55 gpu-8-server-intesight内核:[558013.757173]IP:[] kmem_缓存_alloc+0x77/0x1f0

9月6日02:48:55 gpu-8-server-intesight内核:[558013.757175]PGD 10357d8067 PUD 0


我们有这个问题。据我所知,您有一个非常类似的设置,有多个GPU和一个X99主板。我们通过在引导内核参数中设置
pcie\u aspm=off
来减轻错误。你在你提供的英伟达错误报告日志中搜索“ASPM”,你会注意到以下内容:

[0.167842]ACPI FADT声明系统不支持PCIe ASPM,因此禁用它

[0.278085]acpi PNP0A03:03:FADT表示使用BIOS配置不支持ASPM

[0.282583]acpi PNP0A08:00:FADT表示使用BIOS配置不支持ASPM

[2.795337]r8169 0000:0a:00.0:无法禁用ASPM;操作系统没有ASPM控件

目前我们的GPU服务器仍存在一些问题,但这可能会有所帮助

我最初是在这个网站上发现这个想法的

更新:我们仍然偶尔收到
rminidapter
消息,但我们不再有任何稳定性问题。为了记录在案,我们现在正在运行Nvidia的387.34驱动程序,我们有以下启动参数:

pcie_aspm=off rcutree.rcu_idle_gp_delay=1
作为补充说明,我们也有一个基于X299主板的较新的四GPU盒,我们也有类似的问题

相关的:


Z.Lin,感谢您的澄清:。