Computer stürzt beim Training mit Tensorflow auf mehreren GPUs ab

-2

Meine Server stürzen ab und starten beim Training mit Tensorflow mit mehr als einer GPU automatisch neu.Computer stürzt beim Training mit Tensorflow auf mehreren GPUs ab

Meine Aufgabe ist es, wie:

CUDA_VISIBLE_DEVICES=0 python train.py [LSTM training] 
CUDA_VISIBLE_DEVICES=1 python train.py [Another LSTM training]

Wenn die Aufgaben beide ausgeführt werden, der Server abstürzt und automatisch neu gestartet. Ich habe es mit verschiedenen Servern versucht, aber alle Server verhalten sich gleich.

Meine Hardware-Konfiguration:

Dell T7610 Server
2 * E5-2609 CPU
1 * Nvidia GTX 1080 (Inno 3D Foundation Ausgabe)
1 * Nvidia GTX 1080Ti (Gigabyte Foundation Ausgabe)
64G Speicher

Meine Software-Konfiguration:

Ubuntu 14.04 LTS (Linux 3.13.0-87-generic)
Nvidia-Treiber Version 378,13 (nvidia-378 von ppa: Grafik-Treiber)
CUDA 8.0 (CuDNN 5.1.5)
Python 2.7.13 | Anaconda 4.3.0 (64-Bit)
tensorflow-gpu-1.0. 1 (von pip install)

Das Netzteil hat genug Kapazität für die Grafikkarten. Und aus Memtest-Ergebnissen ist es kein speicherbezogenes Problem. Es gibt keine syslog und kern.log Protokoll, das hilft, das Problem zu finden.

Ich bin bewusst, a similar question. Eine Workaround, die den Linux-Kernel heruntergestuft, ist jedoch inakzeptabel, da ich die Maschinen mit Labor-Leuten teile.

Quelle

2017-03-24 Heda Wang

Jetzt habe ich das Problem gelöst. Ich beschloss, meine eigene Frage zu beantworten.

Es war ein Machtproblem. Wenn die GPU mehr Leistung bezieht, als das Netzteil bereitstellen kann, wird der Computer neu gestartet. Obwohl das Netzteil über ausreichende Kapazität verfügt, verfügt ein 18A-PCIe-Kabel über eine Leistungsgrenze von 217 W.

Meine Problemumgehung besteht darin, das GTX1080 mit zwei PCIe-Stromkabeln mit einem doppelten 6-poligen auf 8-poligen Stecker zu betreiben.

Quelle

2017-03-31 07:10:20

-1

vielleicht gibt es auch ein Treiberproblem. können Sie den richtigen GPU-Gerätenamen anzeigen, wenn 'nvidia-smi' ausgeführt wird?

Quelle

2017-04-16 10:13:17

Es zeigt "Graphics Device" für 1080Ti und "Geforce GTX 1080" für 1080. –

Computer stürzt beim Training mit Tensorflow auf mehreren GPUs ab

Antwort

Verwandte Themen