tensorflow: 1.2.0
gpu: TITAN X (Pascal)
driver: 370.28
I tensorflow distrubuted laufen Modell zu trainieren Bild klassifizieren, aber sehen keine Verwendung gpu (eigentlich gpu util von mnist oder anderen Trainings Job sind auch 0).Gpu util 0 ist, wenn tensorflow Training Job ausführen und Kontextwechsel ist sehr hoch
gibt es viele Umfrage-Systemaufruf, wenn Sie den Trainingsprozess straced (Umfrage fd/dev/nvidia0):
poll([{fd=8, events=POLLIN}, {fd=12, events=POLLIN}, {fd=13, events=POLLIN}, {fd=14, events=POLLIN}, {fd=15, events=POLLIN}, {fd=17, events=POLLIN}, {fd=18, events=POLLIN}, {fd=19, events=POLLIN}, {fd=20, events=POLLIN}, {fd=21, events=POLLIN}], 10, 100 <unfinished ...>
futex(0x2d1eca4, FUTEX_WAIT_BITSET_PRIVATE|FUTEX_CLOCK_REALTIME, 3340677, {1502763800, 428734182}, ffffffff) = -1 ETIMEDOUT (Connection timed out)
vmstat zeigt sehr hohe Kontextschalter, Millionen cs pro Sekunde.
Hatte jemand das schon einmal gesehen?