2017-03-24 9 views
-2

Meine Server stürzen ab und starten beim Training mit Tensorflow mit mehr als einer GPU automatisch neu.Computer stürzt beim Training mit Tensorflow auf mehreren GPUs ab

Meine Aufgabe ist es, wie:

CUDA_VISIBLE_DEVICES=0 python train.py [LSTM training] 
CUDA_VISIBLE_DEVICES=1 python train.py [Another LSTM training] 

Wenn die Aufgaben beide ausgeführt werden, der Server abstürzt und automatisch neu gestartet. Ich habe es mit verschiedenen Servern versucht, aber alle Server verhalten sich gleich.

Meine Hardware-Konfiguration:

Dell T7610 Server
2 * E5-2609 CPU
1 * Nvidia GTX 1080 (Inno 3D Foundation Ausgabe)
1 * Nvidia GTX 1080Ti (Gigabyte Foundation Ausgabe)
64G Speicher

Meine Software-Konfiguration:

Ubuntu 14.04 LTS (Linux 3.13.0-87-generic)
Nvidia-Treiber Version 378,13 (nvidia-378 von ppa: Grafik-Treiber)
CUDA 8.0 (CuDNN 5.1.5)
Python 2.7.13 | Anaconda 4.3.0 (64-Bit)
tensorflow-gpu-1.0. 1 (von pip install)

Das Netzteil hat genug Kapazität für die Grafikkarten. Und aus Memtest-Ergebnissen ist es kein speicherbezogenes Problem. Es gibt keine syslog und kern.log Protokoll, das hilft, das Problem zu finden.

Ich bin bewusst, a similar question. Eine Workaround, die den Linux-Kernel heruntergestuft, ist jedoch inakzeptabel, da ich die Maschinen mit Labor-Leuten teile.

Antwort

1

Jetzt habe ich das Problem gelöst. Ich beschloss, meine eigene Frage zu beantworten.

Es war ein Machtproblem. Wenn die GPU mehr Leistung bezieht, als das Netzteil bereitstellen kann, wird der Computer neu gestartet. Obwohl das Netzteil über ausreichende Kapazität verfügt, verfügt ein 18A-PCIe-Kabel über eine Leistungsgrenze von 217 W.

Meine Problemumgehung besteht darin, das GTX1080 mit zwei PCIe-Stromkabeln mit einem doppelten 6-poligen auf 8-poligen Stecker zu betreiben.

-1

vielleicht gibt es auch ein Treiberproblem. können Sie den richtigen GPU-Gerätenamen anzeigen, wenn 'nvidia-smi' ausgeführt wird?

+0

Es zeigt "Graphics Device" für 1080Ti und "Geforce GTX 1080" für 1080. –

Verwandte Themen