Ich habe dieses Multilayer-Netzwerk mit ReLU versteckt Schichtaktivierungen und Sigmoid-Ausgang Schichtaktivierungen. Ich möchte implementieren Dropout (wo jedes Neuron eine Chance hat, nur Null während des Trainings ausgeben).Welche Schichten sollten beim Training eines Neuronalen Netzwerks "Dropout" erfahren?
Ich dachte, ich könnte nur dieses Geräusch als Teil der ReLU Aktivierungsroutine während des Trainings einzuführen und damit fertig sein, aber ich war mir nicht sicher, ob, im Prinzip, Dropout erstreckt sich auf die sichtbare/output Schicht oder nicht.
(In meinem Kopf Dropout eliminiert Überanpassung, weil es effektiv das Netzwerk einen Durchschnitt von vielen kleineren Netzwerken macht. Ich bin nur nicht sicher über die Ausgabeschicht)