Bei einem lokalen Minimum (oder Maximum) x
verschwindet die Ableitung der Zielfunktion f
: f'(x) = 0
(unter der Annahme einer ausreichenden Glätte von f
).
Gradientenabstieg versucht, ein solches Minimum zu finden x
mit Informationen aus der ersten Ableitung von f
: Es folgt einfach der steilste Abstieg vom aktuellen Punkt. Das ist, als würde man einen Ball den Graphen von f
hinunter rollen, bis er zur Ruhe kommt (während man die Trägheit vernachlässigt).
Newton-Verfahren versucht, einen Punkt x
erfüllt f'(x) = 0
durch Annähern f'
mit einer linearen Funktion g
und dann die Lösung für die Wurzel dieser Funktion zu finden explizit (dies ist Newtons Wurzelfindungsmethode genannt). Die Wurzel von g
ist nicht unbedingt die Wurzel von f'
, aber es ist unter vielen Umständen eine gute Schätzung (die Wikipedia article on Newton's method for root finding hat weitere Informationen zu Konvergenzkriterien). Während sich Newtons f'
annähert, macht es Gebrauch von f''
(die Krümmung von f
). Dies bedeutet, dass es höhere Anforderungen an die Laufruhe von f
stellt, aber es bedeutet auch, dass es (durch Verwendung von mehr Informationen) oft schneller konvergiert.
Die Krümmung bezieht sich darauf, wie Newtons Methode die Ableitung zweiter Ordnung der Funktion verwendet. Gradientenabstieg ist typischerweise erster Ordnung. – akk
Sehen Sie diesen Vortrag von Anfang bis Ende: https://www.youtube.com/watch?v=sTCtkkqrY8A&index=15&list=PL3940DD956CDF0622 –