2017-07-04 3 views
-1

Ich versuche, a distribute tensorflow framwork template zu bauen, aber es gibt Serval Probleme mich verwirrt.mit mehreren Modellen auf einem verteilten Tensorflow Zug Schritte messd

  1. wenn ich --sync_replas=True verwendet in der script, bedeutet es, ich Synchronous training wie in doc verwenden?
  2. Warum wird der globale Schritt in worker_0.log und worker_1.log nicht schrittweise erhöht?
  3. , warum die globale Schritt nicht mit 0, aber ich mag diese

1499169072.773628: Worker 0: training step 1 done (global step: 339)

  1. was ist die Beziehung zwischen training step und global step starten?

  2. Wie Sie aus der create cluster script sehen können, habe ich einen unabhängigen Cluster erstellt. Kann ich mehrere verschiedene Modelle auf diesem Cluster gleichzeitig ausführen?

Antwort

-1
  1. Wahrscheinlich aber hängt von der jeweiligen Bibliothek
  2. Während verteilt Ausbildung möglich, es ist Rennbedingungen zu haben, so dass die Stufen und liest der globalen Schritt nicht vollständig bestellt. Das ist in Ordnung.
  3. Dies ist wahrscheinlich, weil Sie von einem Checkpoint laden?
  4. Unklar, hängt von der Bibliothek ab, die Sie verwenden
  5. Ein Modell pro Cluster ist viel einfacher zu verwalten. Es ist jedoch in Ordnung, mehrere tf-Cluster auf derselben Maschinengruppe zu erstellen.
Verwandte Themen