ich habe auf verteilte Ausbildung eines neuronalen Netzes im Einklang mit der tensorflow Führung geschrieben: https://www.tensorflow.org/deploy/distributedTensorflow und läuft verteilt Training mit Drehmoment
Wenn der Cluster Ich mag würde die Ausbildung laufen auf Drehmoment für Job-Scheduling und Verteilung verwendet, Wie passt das zu Tensorflow und wie verteilt es das Training über den Cluster?
Setzen Sie das Training auf einen Knoten in Drehmoment und lassen Tensorflow es von dort verteilen, oder würde dies mit der Funktionsweise von Drehmoment kollidieren. Ist Drehmoment überhaupt notwendig, wenn Tensorflow Verteilungen bewältigen kann? Wie vermeide ich Zusammenstöße zwischen den beiden?
Vielen Dank im Voraus.
Vielen Dank für die Hilfe BlueSun, hat Ihre Antwort sehr geholfen. Ich bin jedoch auf ein ähnliches Problem gestoßen. Wenn ich eine Tensorflow-Trainingssitzung vom headnode als einen Job ausführe, erhalte ich den folgenden Fehler: "ImportError: Kein Modul namens Tensorflow", aber Tensorflow ist auf allen Knoten des Clusters installiert. Ich habe versucht, die torque-Job-Datei zu verwenden, um eine Tensorflow-Shell auf jedem Knoten zu öffnen, indem ich "source activate tensorflow" in der pbs-Datei verwendete, aber das half auch nicht. Was sind mögliche Lösungen, die ich untersuchen sollte? –
@DevonJarvis Es könnte viele Gründe für den ImportError geben. Sie können versuchen, die Antworten auf die Frage zu lesen: https://stackoverflow.com/questions/14295680/cannot-import-a-python-module-that-is-definitely-installed-mechanize – BlueSun