2017-04-30 1 views
0

Was genau durch Batch-Normalisierung bei Inferenz Phase erfolgt ist jede Schicht mit einer Bevölkerung zu normalisieren bedeuten und eine geschätzte Varianz enter image description hereGibt es keine genaue Implementierung der Batch-Normalisierung im Tensorflow und warum?

Aber es scheint, jede tensorflow Implementierung (einschließlich this one und dem offiziellen tensorflow implementation) Anwendungen (exponentieller) gleitender Durchschnitt und Varianz.

Bitte vergib mir, aber ich verstehe nicht warum. Liegt es daran, dass der gleitende Durchschnitt für die Leistung besser ist? Oder für eine reine Rechengeschwindigkeit?

Refercence: the original paper

Antwort

0

Genaue Aktualisierungsregel Mittelwert für Probe ist nur eine exponentielle Mittelung mit einem Schritt gleich Probengröße invertieren. Wenn Sie die Stichprobengröße kennen, können Sie den Abklingfaktor einfach auf 1/n setzen, wobei n die Stichprobengröße ist. Der Abklingfaktor spielt jedoch in der Regel keine Rolle, wenn er so nahe wie möglich an 1 gewählt wird, da die exponentielle Mittelwertbildung mit einer solchen Abnahmerate immer noch eine sehr gute Annäherung von Mittelwert und Varianz liefert, insbesondere bei großen Datensätzen.

Verwandte Themen