2017-06-16 3 views
1

Ich installierte DC/OS 1.9 auf meiner eigenen drei VM, alle Knoten haben keine GPU-Ressourcen, und der Slave/Slave-öffentlichen Knoten wurde erfolgreich gestartet. In einem Slave einloggen es zeigt unter:gpu/nvidia Isolation in dc/os

Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: E0615 04:43:28.488627 31752 containerizer.cpp:335] Cannot create the Nvidia GPU isolator: NVML is not available 
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: 2017-06-15 04:43:28,494:31752(0x7f9291dd8700):[email protected][email protected]: Client environment:zookeeper.version=zookeeper C client 3.4.8 
..... 
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: I0615 04:43:28.495215 31752 slave.cpp:211] Mesos agent started on (1)@192.168.3.72:5051 

In meiner anderen Testumgebung, deren Mesos Version 1.0.1, starte ich einen Mesos Slave (die Knoten haben auch keine GPU-Ressourcen) mit „cgroups/devices, gpu/Nvidia "Isolation, aber es konnte nicht gestartet werden. Die Protokolle zeigen:

Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin linker-start-agent.sh[25300]: Failed to create a containerizer: Could not create MesosContainerizer: Failed to create isolator 'gpu/nvidia': Cannot create the Nvidia GPU isolator: NVML is not available 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service: main process exited, code=exited, status=1/FAILURE 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: Unit dcos-mesos-slave.service entered failed state. 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service failed. 

ich wissen will: Hat ein Knoten ohne GPU-Ressourcen können Mesos-Salbe mit gpu/nvidia Isolation beginnen? Wenn ja, wie?

Antwort

2

Das Verhalten hier für DC/OS ist etwas anders als in Vanille Mesos.

  • Mit Vanille Mesos, wird der Agent nicht gestartet werden, wenn Sie die gpu/nvidia Isolator ermöglichen aber NVML nicht installiert ist.

  • Bei DC/OS gibt der Agent eine Warnmeldung aus, wenn NVML nicht installiert ist (der Isolator gpu/nvidia ist immer aktiviert).

Hinweis: die Abhängigkeit ist auf den NVML Bibliotheken, keine echten GPU-Ressourcen. Wenn NVML installiert ist, aber keine GPUs in der Box gefunden werden, wird der Agent nicht mit dem aktivierten Isolator gpu/nvidia starten.

+1

Hier kommt der Unterschied her: https://github.com/mesasphere/mesos/commit/13783195d6ea8e34f528022cd13a5dba4bd32c62 – Till

+0

Ich habe es! Danke vielmals! –