Was genau durch Batch-Normalisierung bei Inferenz Phase erfolgt ist jede Schicht mit einer Bevölkerung zu normalisieren bedeuten und eine geschätzte Varianz Gibt es keine genaue Implementierung der Batch-Normalisierung im Tensorflow und warum?
Aber es scheint, jede tensorflow Implementierung (einschließlich this one und dem offiziellen tensorflow implementation) Anwendungen (exponentieller) gleitender Durchschnitt und Varianz.
Bitte vergib mir, aber ich verstehe nicht warum. Liegt es daran, dass der gleitende Durchschnitt für die Leistung besser ist? Oder für eine reine Rechengeschwindigkeit?
Refercence: the original paper