Gibt es Fälle, in denen es besser ist Sigmoid Aktivierung über ReLu

zu verwenden Ich trainiere eine komplexe neurale Netzwerkarchitektur, wo ich eine RNN für die Codierung meiner Eingänge dann ein tiefes neuronales Netzwerk mit einer Softmax-Ausgabeschicht verwendet.Gibt es Fälle, in denen es besser ist Sigmoid Aktivierung über ReLu

Ich bin jetzt Optimierung meiner Architektur tiefen neuronalen Netzwerkteil (Anzahl der Einheiten und Anzahl der versteckten Schichten).

Ich verwende derzeit Sigmoid-Aktivierung für alle Schichten. Dies scheint für wenige versteckte Ebenen in Ordnung zu sein, aber wenn die Anzahl der Schichten wächst, scheint es, dass Sigmoid nicht die beste Wahl ist.

Denken Sie, ich sollte zuerst Hyper-Parameter-Optimierung für Sigmoid dann ReLu oder machen, ist es besser, nur ReLu direkt zu verwenden?

Glaubst du auch, dass Relu in den ersten versteckten Schichten und Sigmoid nur in der letzten versteckten Schicht sinnvoll ist, da ich einen Softmax-Ausgang habe.

Quelle

2017-06-27 ryuzakinho

Sie können Hyperparameter nicht unabhängig voneinander optimieren, nein. Nur weil die optimale Lösung letztendlich X-Ebenen und Y-Knoten sind, bedeutet dies nicht, dass dies für alle Aktivierungsfunktionen, Regulativierungsstrategien, Lernraten usw. gilt. Dies macht die Optimierung von Parametern schwierig. Deshalb gibt es Bibliotheken für die Optimierung von Hyperparametern. Ich würde vorschlagen, dass Sie mit dem Konzept der "zufälligen Suchoptimierung" beginnen.

Quelle

2017-06-27 10:38:56 5Ke

Danke. Tatsächlich verwende ich Partikelschwarmoptimierung für meine Suche. Ich wollte nur etwas Intuition, um den Suchraum einzugrenzen. – ryuzakinho

Gibt es Fälle, in denen es besser ist Sigmoid Aktivierung über ReLu

Antwort

Verwandte Themen