Welche Schichten sollten beim Training eines Neuronalen Netzwerks "Dropout" erfahren?

Ich habe dieses Multilayer-Netzwerk mit ReLU versteckt Schichtaktivierungen und Sigmoid-Ausgang Schichtaktivierungen. Ich möchte implementieren Dropout (wo jedes Neuron eine Chance hat, nur Null während des Trainings ausgeben).Welche Schichten sollten beim Training eines Neuronalen Netzwerks "Dropout" erfahren?

Ich dachte, ich könnte nur dieses Geräusch als Teil der ReLU Aktivierungsroutine während des Trainings einzuführen und damit fertig sein, aber ich war mir nicht sicher, ob, im Prinzip, Dropout erstreckt sich auf die sichtbare/output Schicht oder nicht.

(In meinem Kopf Dropout eliminiert Überanpassung, weil es effektiv das Netzwerk einen Durchschnitt von vielen kleineren Netzwerken macht. Ich bin nur nicht sicher über die Ausgabeschicht)

Quelle

2016-06-30 Seth Trowbridge

Ja, Sie sind richtig - Sie sollten Dropout nicht anwenden, um Schicht auszugeben. Intuitiv - die Einführung eines solchen Rauschens macht die Ausgabe Ihres Netzwerks sehr wahrscheinlich unabhängig von der Struktur Ihres Netzwerks. Egal, welche Art von Berechnungen in versteckten Layern durchgeführt wurden - mit einer gewissen Wahrscheinlichkeit könnte die Ausgabe unabhängig von ihnen sein. Dies ist genau der Philosophie einer Modellierung entgegengesetzt.

Quelle

2016-06-30 22:33:20

Welche Schichten sollten beim Training eines Neuronalen Netzwerks "Dropout" erfahren?

Antwort

Verwandte Themen