dc/os中的gpu/nvidia隔离_Gpu_Mesos_Dcos

dc/os中的gpu/nvidia隔离

dc/os中的gpu/nvidia隔离,gpu,mesos,dcos,Gpu,Mesos,Dcos,我在自己的三个虚拟机上安装了DC/OS 1.9，所有节点都没有GPU资源，从/从公共节点成功启动。在一个从属日志中，它显示如下： Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: E0615 04:43:28.488627 31752 containerizer.cpp:335] Cannot create the Nvidia GPU isolator: NVML is not available Jun 15 04:43:28

我在自己的三个虚拟机上安装了DC/OS 1.9，所有节点都没有GPU资源，从/从公共节点成功启动。在一个从属日志中，它显示如下：

Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: E0615 04:43:28.488627 31752 containerizer.cpp:335] Cannot create the Nvidia GPU isolator: NVML is not available
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: 2017-06-15 04:43:28,494:31752(0x7f9291dd8700):ZOO_INFO@log_env@726: Client environment:zookeeper.version=zookeeper C client 3.4.8
.....
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: I0615 04:43:28.495215 31752 slave.cpp:211] Mesos agent started on (1)@192.168.3.72:5051

在我的另一个测试环境（mesos版本为1.0.1）中，我启动了一个mesos从节点（该节点也没有GPU资源），隔离为“cgroups/devices，GPU/nvidia”，但启动失败。日志显示：

Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin linker-start-agent.sh[25300]: Failed to create a containerizer: Could not create MesosContainerizer: Failed to create isolator 'gpu/nvidia': Cannot create the Nvidia GPU isolator: NVML is not available
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service: main process exited, code=exited, status=1/FAILURE
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: Unit dcos-mesos-slave.service entered failed state.
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service failed.

我想知道：一个没有GPU资源的节点是否可以通过GPU/nvidia隔离启动mesos salve？如果是，怎么做？

这里的DC/OS行为与香草Mesos稍有不同

使用vanilla Mesos，如果启用了
```
gpu/nvidia
```
隔离器，但未安装NVML，则代理将拒绝启动
使用DC/OS，如果未安装NVML，代理将发出警告消息（始终启用
```
gpu/nvidia
```
隔离器）

注意：依赖关系取决于NVML库，而不是实际的GPU资源。如果安装了NVML，但在机箱上找不到gpu，则代理将在启用

gpu/nvidia

隔离器的情况下启动。

这就是差异的来源：