2016-05-07 5 views
2

Wir haben gerade begonnen, Slurm für die Verwaltung unserer GPUs zu verwenden (derzeit nur 2). Wir benutzen ubuntu 14.04 und slurm-llnl. Ich habe konfiguriert gres.conf und srun funktioniert. Das Problem ist, dass, wenn ich zwei Jobs mit --gres=gpu:1 ausführen, dann die beiden GPUs erfolgreich zugeordnet sind und die Jobs starten ausgeführt werden; Jetzt erwarte ich, in der Lage zu sein, mehr Jobs (zusätzlich zu den 2 GPU Jobs) ohne --gres=gpu:1 (d. h. Jobs als nur CPU und RAM verwenden) ausführen, aber es ist nicht möglich.SLURM: Nach dem Zuweisen aller GPUs kann kein CPU-Auftrag mehr gesendet werden

Die Fehlermeldung besagt, dass die erforderlichen Ressourcen nicht zugewiesen werden konnten (obwohl 24 CPU-Kerne vorhanden sind).

Das ist mein gres.conf:

Name=gpu Type=titanx File=/dev/nvidia0 
Name=gpu Type=titanx File=/dev/nvidia1 
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1] 

ich jede Hilfe dankbar. Vielen Dank.

+0

haben Sie versucht, was passiert, wenn Sie cpus in der Gres conf angeben und einige für die Verwendung von anderen Zuweisungen überlassen? – PlagTag

Antwort

1

Vergewissern Sie sich, dass SelectType in Ihrer Konfiguration ist CR_CPU oder CR_Core und dass die shared Option der Partition festgelegt ist nicht auf exclusive. Andernfalls weist Slurm den Jobs vollständige Knoten zu.

Verwandte Themen