2017-07-28 2 views

Antwort

1

Dies ist bekannt als mehrere Parameter Server Shards. Dies gibt einige weitere Details https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf, insbesondere Abschnitt 4,1

Um SGD zu große Datensätze gelten, wir Regenguß SGD, eine Variante von asynchronen stochastischen Gradientenabfallsaktualisierung einzuführen, die mehrere Repliken eines einzelnen DistBelief-Modell verwendet. Der grundlegende Ansatz ist wie folgt: folgt: Wir teilen die Trainingsdaten in eine Anzahl von Teilmengen und führen eine Kopie des Modells auf jeder dieser Teilmengen. Die Modelle kommunizieren Updates über einen zentralen Parameter-Server, der den aktuellen Zustand aller Parameter für das Modell hält, über viele Maschinen geschärft (z. B. wenn wir 10 Parameter Server Shards haben, ist jeder Shard verantwortlich für das Speichern und Anwenden von Updates zu 1/10 des Modells Parameter) (Abbildung 2)

Verwandte Themen