Ich versuche, a distribute tensorflow framwork template zu bauen, aber es gibt Serval Probleme mich verwirrt.mit mehreren Modellen auf einem verteilten Tensorflow Zug Schritte messd
- wenn ich
--sync_replas=True
verwendet in der script, bedeutet es, ichSynchronous training
wie in doc verwenden? - Warum wird der globale Schritt in worker_0.log und worker_1.log nicht schrittweise erhöht?
- , warum die globale Schritt nicht mit 0, aber ich mag diese
1499169072.773628: Worker 0: training step 1 done (global step: 339)
was ist die Beziehung zwischen
training step
undglobal step
starten?Wie Sie aus der create cluster script sehen können, habe ich einen unabhängigen Cluster erstellt. Kann ich mehrere verschiedene Modelle auf diesem Cluster gleichzeitig ausführen?