Deep Learning Gradient am Ende aber Ausgabeschicht ist immer Null

Ich habe mit Udacity selbstfahrende Herausforderung # 2 gearbeitet. Was auch immer ich an das tiefe Netzwerk wie Lernrate, Aktivierungsfunktion ändere, ich bekomme Gradient-Null-Problem während des Trainings. Ich habe sowohl den Kreuzentropieverlust als auch den MSE-Verlust verwendet. Für die Kreuz-Entropie werden 100 Klassen mit einem Gradunterschied von 10 verwendet, d. H. Einem Bogenwinkel von 0,17. Zum Beispiel von (-8.2 bis -8.03) ist Klasse 0 und dann (-8.03 bis -7.86) ist Klasse 1 und so weiter.Deep Learning Gradient am Ende aber Ausgabeschicht ist immer Null

Anbei die Screenshots. Wie zu sehen ist, wird die Schicht vor der Ausgabe (fc4 im ersten Bild) fast Null. Der überwiegende Teil des obigen Gradienten folgt fast dem gleichen Muster. Brauchen Sie einen Vorschlag, um diesen Nullgradientenfehler zu eliminieren.

Model_View

Gradient_Zero_fc4_layer

Quelle

2016-11-01 sridhars

Dies scheint Problem verschwindenden Gradienten werden, 1.) Haben Sie Relu versucht? (Ich weiß, du hast gesagt, du hast versucht, diff activation fn) 2.) Hast du versucht, # Schichten zu reduzieren? 3.) Sind deine Features normalisiert?

Es gibt Architekturen, die das ebenfalls verhindern sollen (zB LSTM), aber ich denke, man sollte mit etwas Einfachem wie oben auskommen.

Quelle

2016-11-01 20:47:38

habe ich mit reluel und elu versucht. Aber das scheint nicht zu funktionieren. Ich habe auch versucht eine einfache Vier-Schicht-Architektur, aber das scheitern auch. Ich habe nur durchschnittliche und Standardisierung durchgeführt. Da es ein Bild ist, habe ich keine andere Normalisierung versucht. Lass mich das überprüfen. Ich habe nichts über LSTM, das in Klassifikationsproblemen verwendet wird. Vielleicht ist das ein guter Ausgangspunkt, um mehr zu erkunden. Vielen Dank. – sridhars

Ich würde nicht empfehlen, auf die Architektur Route zu gehen, es sei denn, es gibt etwas wirklich Einzigartiges an Ihrem Problem. (Es hört sich an, als wäre es nur eine Standard-Bildklassifizierung, die sich bewährt hat.) Der einzige andere Kommentar, den ich habe, ist, dass alle Hyperparameter und Optionen zusammenarbeiten, also müssen Sie möglicherweise ReLu gleichzeitig mit einer niedrigeren Anzahl von Ebenen ausprobieren Wir hoffen, dass Sie Ihr Problem lösen können. –

als Hinweis wird versuchen, eine weitere Kombination von Hyperparametern – sridhars

Deep Learning Gradient am Ende aber Ausgabeschicht ist immer Null

Antwort

Verwandte Themen