2017-06-27 1 views
0

zu verwenden Ich trainiere eine komplexe neurale Netzwerkarchitektur, wo ich eine RNN für die Codierung meiner Eingänge dann ein tiefes neuronales Netzwerk mit einer Softmax-Ausgabeschicht verwendet.Gibt es Fälle, in denen es besser ist Sigmoid Aktivierung über ReLu

Ich bin jetzt Optimierung meiner Architektur tiefen neuronalen Netzwerkteil (Anzahl der Einheiten und Anzahl der versteckten Schichten).

Ich verwende derzeit Sigmoid-Aktivierung für alle Schichten. Dies scheint für wenige versteckte Ebenen in Ordnung zu sein, aber wenn die Anzahl der Schichten wächst, scheint es, dass Sigmoid nicht die beste Wahl ist.

Denken Sie, ich sollte zuerst Hyper-Parameter-Optimierung für Sigmoid dann ReLu oder machen, ist es besser, nur ReLu direkt zu verwenden?

Glaubst du auch, dass Relu in den ersten versteckten Schichten und Sigmoid nur in der letzten versteckten Schicht sinnvoll ist, da ich einen Softmax-Ausgang habe.

Antwort

0

Sie können Hyperparameter nicht unabhängig voneinander optimieren, nein. Nur weil die optimale Lösung letztendlich X-Ebenen und Y-Knoten sind, bedeutet dies nicht, dass dies für alle Aktivierungsfunktionen, Regulativierungsstrategien, Lernraten usw. gilt. Dies macht die Optimierung von Parametern schwierig. Deshalb gibt es Bibliotheken für die Optimierung von Hyperparametern. Ich würde vorschlagen, dass Sie mit dem Konzept der "zufälligen Suchoptimierung" beginnen.

+0

Danke. Tatsächlich verwende ich Partikelschwarmoptimierung für meine Suche. Ich wollte nur etwas Intuition, um den Suchraum einzugrenzen. – ryuzakinho

Verwandte Themen