Reboot 带有Ubuntu 16.04和4.4.0-137-generic内核的NVIDIA DevBox会随机重新启动,并在夜间自动关闭

Reboot 带有Ubuntu 16.04和4.4.0-137-generic内核的NVIDIA DevBox会随机重新启动,并在夜间自动关闭,reboot,suspend,power-off,Reboot,Suspend,Power Off,我最近声明使用一个NVIDIAdevbox,它有一个华硕bios,上面提到了内核版本和ubuntu版本。由于某些原因,这台机器不可能一夜之间就开着,与其他笔记本电脑和/或计算机一样:如果你只需打开它,几分钟后它就会自动锁定和/或进入睡眠模式。第二天,当你移动鼠标或在键盘上键入内容时,电脑就会“解锁”或醒来,你所有的程序都打开并按你的方式运行前一天 出于某种奇怪的原因,这台机器没有发生这种情况。在我之前,有一位用户大约一年没有接触过机器,因此他/她可能已经做了一些关于节能的配置,但当我检查机器中的

我最近声明使用一个NVIDIAdevbox,它有一个华硕bios,上面提到了内核版本和ubuntu版本。由于某些原因,这台机器不可能一夜之间就开着,与其他笔记本电脑和/或计算机一样:如果你只需打开它,几分钟后它就会自动锁定和/或进入睡眠模式。第二天,当你移动鼠标或在键盘上键入内容时,电脑就会“解锁”或醒来,你所有的程序都打开并按你的方式运行前一天

出于某种奇怪的原因,这台机器没有发生这种情况。在我之前,有一位用户大约一年没有接触过机器,因此他/她可能已经做了一些关于节能的配置,但当我检查机器中的电源选项时,一切看起来都很好(我将其设置为暂停-1小时,锁定1小时)。我想我注意到的一件有趣的事情是,如果我午饭后回来,机器被锁定/暂停,它会毫无问题地回到会话中,但是如果我整晚离开它,那么我第二天到达,机器会自动关闭。大楼是锁着的,所以其他人不可能在一夜之间按下关机按钮,我还检查了另一个用户的历史记录命令(我们都有管理员权限,他不使用计算机)来检查远程访问是否关闭,但也不会弹出

我在几个地方读到过,由于供电不良或中断,可能会导致供暖问题,但我如何检查这种情况?我有psensor应用程序,但它似乎只是实时记录温度,而没有将它们保存到一个文件中,在这个文件中我可以检查任何图形卡(有4个)或主板的温度

诊断机器自动停机的另一种方法是什么? 我怎么知道是供暖问题还是电源故障?还是潜在的内核问题?这台机器目前还没有安装真正的程序(它几乎是新的),除了英伟达的驱动程序,我对安装有相当丰富的经验,所以我可以考虑一个全新的Ubuntu安装吗?虽然如果有硬件问题,这是毫无意义的

其他详情:

NVIDIA驱动程序已正确安装。 司机被窃听了,当我强行执行以下命令时,机器的反应非常糟糕,机器连续运转了2天(这对这些机器来说应该是微风),直到在午夜2次连续重启之后,很难持续5分钟以上:

$ unset autologoff
后来我必须正确地重新安装驱动程序(并重新设置自动登录选项),系统返回到其当前状态,如果超过24小时不执行任何操作(不执行任何操作,因为它没有接收人工输入,但后端进程可能仍在运行),则系统“需要”关闭自身

  • 主板:ASUS EATX DDR4 LGA 2011-3主板X99-E WS/USB 3.1
  • CPU:Intel Xeon E5-2690 v4 2.6 GHz 14核LGA 2011处理器135 W
  • 冷却器:Corsair H80i v2 H80i系列高性能液体CPU 酷点,黑色
  • 电源:EVGA超新星1600 P2 80+铂, 1600W生态模式全模块化NVIDIA SLI和Crossfire可供10年使用 保修电源220-P2-1600-X1
  • 图形卡:4个Titan X Pascal
在发现机器出现此错误后,我在引导中添加了
pci=noaer

产出:

$ cat /proc/cmdline


通过将系统上传到Ubuntu18.04,问题得到了解决。这个bug的根源一直没有找到,但我怀疑它与内核可能与图形卡、BIOS和16.04 Ubuntu版本不匹配有关

BOOT_IMAGE=/boot/vmlinuz-4.4.0-137-generic.efi.signed root=UUID=569dd2ad-c5a6-4ae4-a167-f849b8f6ae9e ro quiet splash pci=noaer vt.handoff=7