2016-04-01 19 views
0

Für den Gradientenabstiegsalgorithmus, der den durchschnittlichen quadratischen Fehler minimiert, findet der Algorithmus Koeffizienten zu einem linearen Prädiktor. Der Algorithmus, auf den ich mich beziehe, ist this one. Diese Koeffizienten, die der Algorithmus findet, konvergieren zum globalen Minimum, wenn die Lernrate klein genug ist. Wir wissen, dass es ein globales Minimum gibt, weil der durchschnittliche quadratische Fehler eine konvexe Funktion der Gewichte ist.Gradient Descent globales Minimum?

Wie wäre es mit einer Lernrate (alias Alpha im verknüpften Video)? Betrachten wir zwei Verfahren für die Auswahl der Lernrate:

METHODE 1

iterieren über alle i im Bereich von -15 bis 2.

  • für jedes i lernen lassen Rate 3^i sein.
  • Lauf Gradientenabfallsaktualisierung für 20000 Iterationen
  • messen Sie Ihren Trainingsfehler

3 Wählen Sie das Lernen^i für die i, der den niedrigsten Trainingsfehler hatte.

METHODE 2

iterieren über alle i im Bereich von -15 bis 2.

  • für jedes i lassen Lernrate 3^i sein.
  • Lauf Gradientenabfallsaktualisierung für 20000 Iterationen
  • Maßnahme Ihre Trainingsfehler
  • wenn Fehler höher als in früheren Iteration ist, die ich aus der vorherigen Iteration wählen und die Schleife

Ist Methode 2 richtig brechen in der Annahme, dass, sobald der Fehler für eine bestimmte Wahl der Lernrate gestiegen ist, alle Lernraten, die größer als diese sind, noch schlimmer sind?

In Methode 1 gingen wir über alle Werte der Lernrate in einem Bereich. In Methode 2 haben wir gesagt, dass wir nicht über alle Werte gehen müssen - nur bis wir eine Zunahme des Fehlers sehen.

Antwort

0

Sie Zitiert,

... und messen Sie den Fehler nach einer festen Anzahl von Iterationen und , wenn Sie eine Zunahme der Fehler sehen ...

Nun, nach dem Video , so erkennen wir die Konvergenz, wenn der Unterschied im Gradientenabstieg < = 0,001 oder irgendein Wert ist, also gibt es bereits eine Grenze, die Sie gesetzt haben, die keine weitere Iteration für höhere Werte in der Änderung der Kostenfunktion erlauben wird.

Es gibt nur ein lokales/globales Minimum für die konvexen Funktionen, wenn die Hypothese ein linearer Prädiktor ist, so dass der Gradientenabfall ihn natürlich auf diesen Minima-Punkt herunterbringt.

+0

Siehe meine Bearbeitung. Ich sehe, dass meine ursprüngliche Frage nicht klar war – user3494047