Google cloud platform 关闭脚本未在带有GPU和NVIDIA驱动程序的GCE实例上运行

Google cloud platform 关闭脚本未在带有GPU和NVIDIA驱动程序的GCE实例上运行,google-cloud-platform,google-compute-engine,google-kubernetes-engine,Google Cloud Platform,Google Compute Engine,Google Kubernetes Engine,我正在尝试使用NVIDIA K80 GPU(来宾加速器)在GCE实例上运行关机脚本。这些实例(N1-StRAMARD-1)运行Ubuntu 16.04(在英伟达驱动程序中安装了NVIDIA驱动程序)的自定义图像,在U-EST-1D区域。 问题是当实例安装了英伟达驱动程序时,没有关闭脚本,但如果驱动程序未安装(即使GPU被附加),也会始终如一地执行。无论实例是否可抢占,都会发生这种情况 在标准的Ubuntu16.04操作系统映像上运行关闭脚本是可行的,但是一旦安装了驱动程序,实例重新启动,关闭它就

我正在尝试使用NVIDIA K80 GPU(来宾加速器)在GCE实例上运行关机脚本。这些实例(N1-StRAMARD-1)运行Ubuntu 16.04(在英伟达驱动程序中安装了NVIDIA驱动程序)的自定义图像,在U-EST-1D区域。

问题是当实例安装了英伟达驱动程序时,没有关闭脚本,但如果驱动程序未安装(即使GPU被附加),也会始终如一地执行。无论实例是否可抢占,都会发生这种情况

在标准的Ubuntu16.04操作系统映像上运行关闭脚本是可行的,但是一旦安装了驱动程序,实例重新启动,关闭它就不再触发脚本。有趣的是,/var/log/syslog不包含关闭脚本的消息。我可能会看到一个错误或者没有找到关机脚本的消息,但这些都不会出现


如果您能提供任何帮助或信息,说明这是可复制的,还是我的错误,我们将不胜感激。

我刚刚在我的项目中使用NVIDIA K80 GPU对其进行了测试,无论是否使用,我都能够运行关机脚本。你是否真的做了一个移除GPU的测试,或者你使用了两个不同的实例

您可以尝试在实例的自定义元数据中添加脚本,以检查您连接到bucket/权限的方式或脚本本身是否存在问题(但老实说,我不知道这些问题是如何导致的)

因此,请转到任何实例的“编辑”页面,添加自定义元数据,然后重试,并告知结果

key = shutdown-script
value = echo hello >> marco.py
请记住,关闭脚本的输出将写入以下日志文件:

  • CentOS和RHEL:/var/log/messages
  • Debian:/var/log/daemon.log
  • Ubuntu 14.04、16.04和16.10:/var/log/syslog
  • SLES 11和12:/var/log/messages
更新 我创建了一个公共问题,你可以“星”,以跟踪其更新。 您需要使用任何gmail帐户登录才能进行检查


感谢您的回复!在阅读了你的答案之后,我还在一个基本的Ubuntu 16.04图像上运行了关闭脚本,它成功了。安装英伟达驱动程序(下面是Ubuntu 16.04的步骤)导致关闭脚本没有运行。在重新启动刚刚安装驱动程序的实例并再次将其关闭后,关闭脚本将不再运行。关闭脚本的执行根本没有显示在/var/log/syslog中(甚至没有“关闭脚本丢失”消息)。您好,我执行了一些测试,在安装驱动程序后,关闭脚本在Ubuntu 17.10中运行,但由于某些原因,它不适用于16.04。我将报告这一意外行为,我将创建一个开放的问题,您将能够启动它并遵循它的解决方案。我会用所有需要的信息更新我的答案。如果有用的话,请考虑接受并投票表决!(免责声明:我为谷歌云平台支持部门工作)我按照承诺创建了公共问题。