1
decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2 

Ich bin durch den Wortlaut der Kommentare wie oben verwirrt, wo sie über eine "undichte" Quadratsumme für den RMSProp-Optimierer sprechen. Bisher konnte ich feststellen, dass diese spezielle Zeile von Andrej Karpathys Deep Reinforcement Learning: Pong from Pixels kopiert wurde, und dass RMSProp ein unpublished optimizer proposed by Hinton in one of his Coursera Classes ist. Wenn man sich die Mathematik für RMSProp von link 2 anschaut, ist es schwer herauszufinden, wie etwas davon "undicht" ist.Warum wird RMSProp als "undicht" betrachtet?

Würde jemand zufällig wissen, warum RMSProp auf diese Weise beschrieben wird?

Antwort

4

RMSprop behält den exponentiell abfallenden Durchschnitt der quadratischen Gradienten bei. Der Wortlaut (jedoch unglücklich) von "undicht" bezieht sich auf die Tatsache, wie viel von der vorherigen Schätzung zu der aktuellen "leckt", da

E[g^2]_t := 0.99 E[g^2]_{t-1} + 0.01 g^2_t 
      \_______________/ \________/ 
       "leaking"   new data 
Verwandte Themen