Ich habe einige Reichweite und Berechnung und wenn ich richtig verstehe, Stochastic Gradientenabstieg - "Adam Optimiser" ist im Grunde gewöhnliche Gradientenabstieg, mit einem bestimmten, dass es zufällige Daten in kleineren Anteil mit Trainingsdatensatz auswählt, um NN gefangen zu vermeiden in der Lücke, die nicht unbedingt Mindestwert in Abstiegsfunktion widerspiegeln muss? DankeStochastische Gradientenabsenkung ist im Grunde gewöhnliche Gradientenabsenkung?
Antwort
Stochastic Gradient Descent
wird im Allgemeinen mit Batch Gradient Descent
nebeneinander gestellt. In Batch Modus, jede Funktion co zu aktualisieren - effizient des Eingangsmerkmalsvektor X, benötigen Sie eine Summierung über ALL die Aufzeichnungen Ihres Trainingsdatensatzes, Quelle: http://cs229.stanford.edu/notes/cs229-notes1.pdf
Repeat until convergence
{
θj := θj + α * summation(i=1 to m) (y - h(x)) x_j --> for every j
}
Die wichtige Sache hier ist, dass die Summierung über alle Datensätze für jedes Feature durchgeführt wird. Wenn Sie also 5000 Features/Attribute/Spalten Ihrer Daten haben, führen Sie die Summe 5000 mal für jeden Lauf aus.
Im Gegensatz dazu, wenn man sich stochastischen aussehen,
Loop
{
for i=1 to m, {
θj := θj + α( y(i) − h(x(i)) x(i) j (for every j).
}
}
Wesentlichen für jedes j, nur diese bestimmte Funktion oder einen Wert von X betrachtet. Das macht es schnell. Der Nachteil ist, dass es möglicherweise nicht die gleichen Minima wie Batch hat, oder globale Minima nicht erreicht werden, aber in der Praxis funktioniert es tendenziell besser.
- 1. EditText ohne Linie im Grunde
- 2. Ist String in Rust im Grunde ein Vektor?
- 3. Schreibtests für stochastische Funktionen
- 4. Stochastische Erfüllbarkeit Modulo-Theorie
- 5. Weniger Loop im Grunde die Leistung herab?
- 6. So führen Sie den Gradientenabstieg für nicht alle Variablen im Tensorflow durch
- 7. Verwendung gewöhnliche kleinste Quadrate (OLS)
- 8. keine gewöhnliche "Funktion" in Java?
- 9. Stochastische Gradientenabstieg-Implementierung mit Python's numpy
- 10. 3D-Extrapolation in Python (im Grunde, scipy.griddata extrapoliert)
- 11. Text in einer URL ersetzt Also im Grunde mit PHP
- 12. Perl-Modul Klassenmethode vs gewöhnliche Unterroutine
- 13. Wie kann ich die Textfarbe eines MathView ändern? Was ist im Grunde ein WebView
- 14. Dateiname auf MYSQL gespeichert ist falsch aus irgendeinem Grunde
- 15. Gewöhnliche kleinste Quadrate mit glmnet und lm
- 16. Verwenden von std :: unique_ptr für Windows-GRUNDE
- 17. Wie der Eigenvektor einer Spalte stochastische Matrix in C++
- 18. Schnellen zufällige gewichtete Auswahl über alle Zeilen einer stochastische Matrix
- 19. UIPopoverController mich duplizieren aus irgendeinem Grunde
- 20. .htaccess-Redirect funktioniert nicht aus irgendeinem Grunde
- 21. Fehler mit einer Android Grunde Kasse (MercadoPago)
- 22. Was ist der Unterschied beim Neuerstellen eines Indexes für indexorganisierte Tabellen und gewöhnliche Tabellen?
- 23. bessere Alternative zu Gradientenabfallsaktualisierung
- 24. SQL Server schlug einen Index vor, der im Grunde alle Spalten aus der Tabelle hat - ist das eine gute Idee?
- 25. Delphi-Konstruktor als gewöhnliche Methode aufrufen - irgendwelche versteckten Nebenwirkungen?
- 26. SBT: Wie sowohl gewöhnliche Glas und Test-Glas gleiche Abhängigkeit
- 27. Verbinden Sie zwei gewöhnliche RDDs mit/ohne Spark SQL
- 28. bekommt tiefste (im Grunde Y) nicht nur letztes Objekt in einem UIView Subviews
- 29. $ this-> set ('title', 'Titelname'); Im Grunde genommen in CakePHP 3.x
- 30. STUFF SQL-Abfrage in NHibernate, im Grunde versucht, MySQLGroupConcat zu replizieren
Wird Ihre Frage in Wikipedia nicht behandelt? '' 'zu vermeiden, dass NN in der Lücke gefangen ist''' ist der geringste aller Gründe für diese Nutzung. Unterschiedliche Konvergenzeigenschaften und Speichernutzung sind viel wichtiger (und Ihr * in der Lücke gefangenes * ist noch nicht gut verstanden, obwohl dies auch für Konvergenz allgemein mit nicht-konvexen Verlusten gilt). Adam ist auch nicht Vanilla-SGD. Es ist eine Variante, die versucht, die Konvergenz (wie klassisches Momentum und Co) unter einigen Annahmen zu verbessern (es ist mehr oder weniger eine Art Filter). – sascha
Danke Sascha. Ich habe nicht über den Speicherverbrauch nachgedacht. Richtig. – Makaroniiii