2017-12-02 12 views
-1

Ich habe 4 NVIDIA 1080 GPUs (je 11GB), 128GB RAM, und ich benutze ein 1600W EVGA Supernova P2 Netzteil in meinem Labor. Ich bin neu im Deep Learning. Ich möchte ein Gefühl für das normale Verhalten während des Trainings in Bezug auf die Hardware bekommen.Der PC wird heruntergefahren, wenn die Stapelgröße auf einer 4-GPU-Maschine auf 18 erhöht wird.

Ich habe 70000 medizinische Bilder, die 256x256x3 sind. Ich mache Ende-zu-Ende-Training mit AlexNet.

Wenn ich die Batch-Größe auf etwas mehr als 18 mit 3 meiner GPUs einstellen, schaltet sich der Computer aus und startet dann neu. GPU Burn funktioniert auf allen GPUs gut und wenn ich Chargen von 4-8 verwende, kann ich alle 4 GPUs verwenden. Trotz alldem bleibt die Temperatur der GPUs bei 70-75 mit einer Auslastung von nicht mehr als 60% auf jeder der 3 GPUs.

Ist das normal - ich hätte gedacht, ich könnte Chargen von großzügigeren Proportionen mit dieser Hardware trainieren.

Danke.

Antwort

1

Das sieht aus wie ein Hardwareproblem. Aber überprüfen Sie auch verschiedene Protokolle (Ausgabe von dmesg, einige /var/log/*log Datei).

Vielleicht ist Ihr Netzteil leicht unterdimensioniert.

Vielleicht ist Ihre Kühlung unzureichend und Ihr Computer wird zu heiß. Sitzt es in einem klimatisierten Raum?

NVIDIA GPUs werden gemunkelt, um ziemlich heiß zu werden.

Wenn Sie eine normale Desktop-Box haben, versuchen Sie, einige Abdeckplatte zu entfernen, um die Temperatur etwas zu senken (vielleicht auch das Fenster öffnen, wenn es draußen kalt und kalt ist). Überprüfen Sie, ob Ihre Lüfter gut funktionieren (vielleicht einige BIOS-Einstellungen ...).

Verwendung auch einige Dienstprogramme (wie yacpi, xsensors, etc ...) die Temperatur bei mehrere Punkten zu messen (GPU, CPU, Box, Motherboard, was Sie können ...).

Führen Sie auch einige GPU-Benchmarks aus (oder codieren Sie einige einfache in CUDA oder in OpenCL), um Ihre GPU-Hardware zu laden. Achten Sie darauf, Test für den Ausfall von jedem GPU Code.

+0

Nein, aber es ist das Vereinigte Königreich und Winter. Temperaturmessungen sind in Ordnung, und mir wurde gesagt, dass mein Netzteil zu den Besten gehört, die man bekommt. – GhostRider

+0

Es könnte sehr gut sein, aber unterdimensioniert. –

+0

Sehen diese Zahlen falsch aus - d. H. Soll ich eine bessere Leistung erzielen? Ich vermute aus meiner Recherche, dass ich sollte. – GhostRider

Verwandte Themen