2016-11-26 3 views

Antwort

2

Ja, und es sollte bei jeder Iteration gemischt werden, z.B. Zitat aus {1}:

Wie bei jedem stochastischen Gradientenabstieg Verfahren (einschließlich dem mini Fall ist), ist es wichtig für die Effizienz des Schätzers, die jedes Beispiel oder mini annähernd unabhängig abgetastet werden. Da Random Access zu Speicher (oder noch schlimmer, zu Festplatte) ist teuer, eine gute Näherung, genannt inkrementelle Gradienten (Bertsekas, 2010), ist die Beispiele (oder Mini-Chargen) in einer festen Reihenfolge entsprechend zu besuchen zu ihrer Reihenfolge im Speicher oder auf der Festplatte (Wiederholung die Beispiele in der gleichen Reihenfolge auf einer zweiten Epoche, wenn wir nicht im reinen Online-Fall sind, in dem jedes Beispiel nur einmal besucht wird). In diesem Zusammenhang ist es sicherer, wenn die Beispiele oder Minibatches zuerst in eine zufällige Reihenfolge eingegeben werden (um sicherzustellen, dass dies der Fall ist, könnte es nützlich sein, zuerst die Beispiele zu mischen). Schnellere Konvergenz wurde beobachtet, wenn die Reihenfolge, in der die Mini-Chargen besucht werden, für jede Epoche, geändert wird, die einigermaßen effizient sein kann, wenn der Trainingssatz im Computerspeicher hält.

{1} Bengio, Yoshua. "Practical recommendations for gradient-based training of deep architectures." Neuronale Netze: Tricks des Handels. Springer Berlin Heidelberg, 2012. 437-478.

Verwandte Themen