zu verwenden Ich trainiere eine komplexe neurale Netzwerkarchitektur, wo ich eine RNN für die Codierung meiner Eingänge dann ein tiefes neuronales Netzwerk mit einer Softmax-Ausgabeschicht verwendet.Gibt es Fälle, in denen es besser ist Sigmoid Aktivierung über ReLu
Ich bin jetzt Optimierung meiner Architektur tiefen neuronalen Netzwerkteil (Anzahl der Einheiten und Anzahl der versteckten Schichten).
Ich verwende derzeit Sigmoid-Aktivierung für alle Schichten. Dies scheint für wenige versteckte Ebenen in Ordnung zu sein, aber wenn die Anzahl der Schichten wächst, scheint es, dass Sigmoid nicht die beste Wahl ist.
Denken Sie, ich sollte zuerst Hyper-Parameter-Optimierung für Sigmoid dann ReLu oder machen, ist es besser, nur ReLu direkt zu verwenden?
Glaubst du auch, dass Relu in den ersten versteckten Schichten und Sigmoid nur in der letzten versteckten Schicht sinnvoll ist, da ich einen Softmax-Ausgang habe.
Danke. Tatsächlich verwende ich Partikelschwarmoptimierung für meine Suche. Ich wollte nur etwas Intuition, um den Suchraum einzugrenzen. – ryuzakinho