2017-10-02 6 views
1

ich habe auf verteilte Ausbildung eines neuronalen Netzes im Einklang mit der tensorflow Führung geschrieben: https://www.tensorflow.org/deploy/distributedTensorflow und läuft verteilt Training mit Drehmoment

Wenn der Cluster Ich mag würde die Ausbildung laufen auf Drehmoment für Job-Scheduling und Verteilung verwendet, Wie passt das zu Tensorflow und wie verteilt es das Training über den Cluster?

Setzen Sie das Training auf einen Knoten in Drehmoment und lassen Tensorflow es von dort verteilen, oder würde dies mit der Funktionsweise von Drehmoment kollidieren. Ist Drehmoment überhaupt notwendig, wenn Tensorflow Verteilungen bewältigen kann? Wie vermeide ich Zusammenstöße zwischen den beiden?

Vielen Dank im Voraus.

Antwort

0

Drehmoment und verteilter Tensorfluss sind für verschiedene Aufgaben verantwortlich, die nicht direkt miteinander in Beziehung stehen. Torque dient dazu, die Ressourcen eines Clusters auf mehrere Jobs zu verteilen. Innerhalb eines Jobs werden nur die entsprechenden angeforderten Ressourcen verfügbar sein. Distributed Tensorflow ist dort, um die Tensorflow-Aufgabe zwischen den verfügbaren Ressourcen (innerhalb eines Jobs) zu parallelisieren.

Normalerweise würden Sie das Drehmoment verwenden, um alle benötigten Ressourcen für die Tensorflow-Task zu erhalten, und dann den verteilten Tensorflow verwenden, um die Task auf die Ressourcen zu verteilen, die durch das Drehmoment bereitgestellt wurden.

Wenn tf.train.ClusterSpec korrekt mit den vom Drehmoment bereitgestellten Ressourcen initialisiert wird, treten keine Konflikte auf.

+0

Vielen Dank für die Hilfe BlueSun, hat Ihre Antwort sehr geholfen. Ich bin jedoch auf ein ähnliches Problem gestoßen. Wenn ich eine Tensorflow-Trainingssitzung vom headnode als einen Job ausführe, erhalte ich den folgenden Fehler: "ImportError: Kein Modul namens Tensorflow", aber Tensorflow ist auf allen Knoten des Clusters installiert. Ich habe versucht, die torque-Job-Datei zu verwenden, um eine Tensorflow-Shell auf jedem Knoten zu öffnen, indem ich "source activate tensorflow" in der pbs-Datei verwendete, aber das half auch nicht. Was sind mögliche Lösungen, die ich untersuchen sollte? –

+0

@DevonJarvis Es könnte viele Gründe für den ImportError geben. Sie können versuchen, die Antworten auf die Frage zu lesen: https://stackoverflow.com/questions/14295680/cannot-import-a-python-module-that-is-definitely-installed-mechanize – BlueSun