Wenn Sie verteiltes Async-Training durchführen, müssen alle Mitarbeiter darauf warten, die Modellparameter zu synchronisieren, z. B. nach Abschluss einer Epoche synchronisieren und den Aux on-Validierungssatz berechnen.Gibt es sowieso etwas wie MPI_BARRIER im Tensorflow zu tun?
MPI_BARRIER ist gut genug bei der Verwendung von MPI, gibt es etwas Ähnliches im Tensorflow?
Dank sehr viel! !! –
vielen Dank !!! Ich versuche diesen Ansatz und es funktioniert gut, wenn alle Arbeiter auf der gleichen Maschine sind. Aber es hängt, wenn ich 2 Knoten starte, jeder mit einem Arbeiter und einem PS. Normalerweise dauert es etwa 20 Minuten oder mehr für einen Aufruf von barrier(). Hast du eine Idee, das zu beheben? –
Haben Sie dies nicht auf mehr als einer Maschine getestet. Ist es nach 20 Minuten tatsächlich erfolgreich? Wie lange dauert ein einzelner sess.run-Aufruf, um auf ps zu erhöhen? (Ist Ihr Netzwerk langsam?) An welchem Teil hängt es? –