Ich arbeite an einem sehr breiten und flachen Berechnungsgraphen mit einer relativ kleinen Anzahl von gemeinsamen Parametern auf einer einzigen Maschine. Ich möchte den Graphen breiter machen, aber ich habe keinen Speicher mehr. Nach meinem Verständnis ist es bei der Verwendung von Distributed Tensorflow möglich, den Graphen unter Verwendung des Kontextmanagers tf.device in Worker aufzuteilen. Es ist jedoch nicht klar, wie mit dem Verlust umzugehen ist, der nur durch Ausführen des gesamten Graphen und des Trainingsvorgangs berechnet werden kann.Verteiltes Training eines breiten und flachen Modells
Was wäre die richtige Strategie, um die Parameter für diese Art von Modell zu trainieren?