Ich möchte mit TensorFlow In-Graph-Replikation in einem Multi-GPU-Cluster mit mehreren PS und Arbeiter experimentieren. Die CIFAR-10 multi GPU example zeigt in Diagramm synchrone Replikation auf einer einzelnen Maschine. Gibt es ein Beispiel, auf das ich mich beziehen kann wie die example trainer program for between-graph training?TensorFlow In-Graph Replikation Beispiel
Antwort
Im Allgemeinen bevorzugen wir zwischen Graph-Replikation und In-Graph-Replikation für verteiltes Training, da die Inter-Graph-Replikation skalierbarer ist als die In-Graph-Replikation (die aktuelle Implementierung von). Das Hauptproblem bei der In-Graph-Replikation besteht darin, dass Sie derzeit mehrere Kopien der Diagrammstruktur für Ihr Netzwerk erstellen und diese an einem einzigen Ort (d. H. Dem verteilten Master) materialisieren müssen. Wenn Sie Hunderte von Replikaten haben, wird der Master dadurch zu einem Engpass. Im Gegensatz dazu verfügt jede Kopie in der Replikation zwischen Grafiken nur über eine Kopie des Diagramms, das lokal ausgeführt wird.
Der Nachteil der Zwischen-Graph-Replikation ist, dass es das synchrone Training erschwert, da Sie jetzt mehrere Trainings-Schleifen zur Synchronisation haben, anstatt eine einzelne Schleife mit einer einzigen Trainings-Operation. Die tf.train.SyncReplicasOptimizer
, die in distributed Inception trainer verwendet wird, bietet eine Möglichkeit, synchrones Training mit der Replikation zwischen Grafiken auszuführen.
Wenn Sie jedoch die In-Graph-Replikation versuchen möchten, können Sie dies tun, indem Sie the line that assigns a device to each of the towers im CIFAR-10-Beispiel ändern. Anstatt den Tower verschiedenen GPUs im selben Prozess zuzuweisen, können Sie sie verschiedenen GPUs in verschiedenen Worker-Tasks zuweisen. Zum Beispiel:
worker_devices = ["/job:worker/task:0/gpu:0", ..., "/job:worker/task:7/gpu:0"]
for worker_device in worker_devices:
with tf.device(worker_device):
# Execute code for building the model replica.
- 1. MNIST Tensorflow Beispiel
- 2. Tensorflow Beispiel für Android
- 3. Tensorflow compute_weighted_loss Beispiel
- 4. TensorFlow Beispiel mandel Bild
- 5. Tensorflow Java API - anspruchsvolles Beispiel
- 6. Tensorflow CNN MNIST Beispiel, Gewichtsabmessungen
- 7. Gebaut TensorFlow erfolgreich; Beispiel versagt
- 8. wie tensorflow verteilt mnist Beispiel
- 9. Tensorflow LSTM Beispiel Eingabeformat Batches2string
- 10. Between-Graph-Replikation in Tensorflow: Sitzungen und Variablen
- 11. Distributed TensorFlow Beispiel funktioniert nicht auf TensorFlow 0.9
- 12. Replikation
- 13. Tensorflow Connectionist Temporal Classification (CTC) Beispiel
- 14. Tensorflow Wide & Deep Beispiel funktioniert nicht
- 15. Hinzufügen mehrerer Softmax-Klassifikatoren zu TensorFlow Beispiel
- 16. verstehe nicht mnist beispiel in tensorflow
- 17. Tensorflow Wide & Deep Tutorial Beispiel mit Batch
- 18. Tensorflow android Beispiel wird nicht gebaut
- 19. tensorflow mnist Beispiel mit meinem eigenen get_next_minibatch
- 20. Tensorflow RNN Beispiel auf feste Losgröße begrenzt?
- 21. TensorFlow MNIST Beispiel Feeding eigene Bilder
- 22. Distributed Tensorflow funktioniert nicht mit einfachen Beispiel
- 23. NotFoundError läuft TensorFlow XLA Beispiel (libdevice.compute_35.10.bc)
- 24. Fehler beim Ausführen des Grund tensorflow Beispiel
- 25. Unaggregierte Gradienten/Gradienten pro Beispiel in Tensorflow
- 26. Tensorflow ArgumentError Running CIFAR-10 Beispiel
- 27. TensorFlow: Ausführen des DNN Iris Beispiel
- 28. Postgres Replikation
- 29. Mittelwert jeder Replikation
- 30. Wie erstellt man eine Website für das Tensorflow-Beispiel?
Hallo, @mrry können Sie erklären, was genau Replik ist? Danke! –
Hat das etwas mit der Replikation von [Parameter Server für verteiltes maschinelles Lernen] (https://www.cs.cmu.edu/~muli/file/ps.pdf) zu tun? –
Ich fand diesen Artikel (https://clindatsci.com/blog/2017/5/31/distributed-tensorflow) hilfreich als kostenloses Material. –