0

Ich versuche CNN zu verwenden, um Bilder zu klassifizieren und so weit ich sehen kann, ist ReLu eine beliebte Wahl für die Aktivierungseinheit in jeder Faltungsschicht. Nach meinem Verständnis würde ReLU alle positiven Bildintensitäten beibehalten und die negativen in Nullen umwandeln. Für mich ist es wie Bearbeitungsschritt, nicht wirklich "feuern" Schritt überhaupt . Also was ist der Zweck der Verwendung von ReLU hier?Warum wird ReLU als Aktivierungseinheit im Convolutional Neural Network verwendet?

+1

Mögliches Duplikat von [diese Frage] (https://stackoverflow.com/questions/9782071/why-must-a-nonlinear-activation-function-be-used-in-a-backpropagation-neural-net). Für weitere Informationen zu ReLU siehe [diese Frage] (https://stats.stackexchange.com/questions/126238/what-are-the-advantages-of-relu-over-sigmoid-function-in-deep-neural- Netzwerke). – jodag

+0

Siehe auch https://stats.stackexchange.com/questions/141960/deep-neural-nets-relus- removing-non-linearity – MSalters

Antwort

1

Zunächst führt es Nichtlinearität ein. Ohne sie wäre das ganze CNN nichts anderes als eine Folge von Matrixmultiplikationen und Max-Poolings (so dass Sie keine komplizierten Funktionen approximieren und lernen könnten). Aber ich stelle mir vor, Sie fragen, warum gerade ReLU populär ist. Ein Grund, der mir in den Sinn kommt, ist, dass andere Aktivierungsfunktionen wie tanh oder Sigmoids ein Gradientensättigungsproblem haben. Dies bedeutet, dass, sobald der Wert, den sie ausgegeben haben, nahe dem maximalen Wert ist, ihr Gradient insignifikant wird (schaue einfach auf ihren Graphen, , zum Beispiel auf wikipedia) und sie würden den Gradienten bei der Rückpropagation abtöten. ReLU hat dieses Problem nicht. Darüber hinaus bedeutet die Tatsache, dass ReLUs Nullen für negative Werte erzeugen, dass die von dem Netzwerk produzierten Zwischendarstellungen eher spärlicher sind.

Verwandte Themen