In Distributed Tensorflow, was ist der Effekt von mehreren Parameterservern?

Wenn wir einen Parameterserver haben, der von seinen Arbeitern aktualisiert wird, was hat das zur Folge, dass mehrere Parameterserver für dieselbe Anzahl von Arbeitern zur Verfügung stehen?In Distributed Tensorflow, was ist der Effekt von mehreren Parameterservern?

. Was passiert, wenn wir mehrere Parameterserver anstelle eines Parameterservers haben?

Vielen Dank.

Quelle

2017-07-28 InfoCho

Dies ist bekannt als mehrere Parameter Server Shards. Dies gibt einige weitere Details https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf, insbesondere Abschnitt 4,1

Um SGD zu große Datensätze gelten, wir Regenguß SGD, eine Variante von asynchronen stochastischen Gradientenabfallsaktualisierung einzuführen, die mehrere Repliken eines einzelnen DistBelief-Modell verwendet. Der grundlegende Ansatz ist wie folgt: folgt: Wir teilen die Trainingsdaten in eine Anzahl von Teilmengen und führen eine Kopie des Modells auf jeder dieser Teilmengen. Die Modelle kommunizieren Updates über einen zentralen Parameter-Server, der den aktuellen Zustand aller Parameter für das Modell hält, über viele Maschinen geschärft (z. B. wenn wir 10 Parameter Server Shards haben, ist jeder Shard verantwortlich für das Speichern und Anwenden von Updates zu 1/10 des Modells Parameter) (Abbildung 2)

Quelle

2017-07-28 15:49:05

In Distributed Tensorflow, was ist der Effekt von mehreren Parameterservern?

Antwort

Verwandte Themen