2014-12-05 9 views
13

Ich studiere Convolutional Neural Networks. Ich bin verwirrt über einige Schichten in CNN.ReLu und Dropout in CNN

In Bezug auf ReLu ... Ich weiß nur, dass es die Summe einer unendlichen logistischen Funktion ist, aber ReLu keine Verbindung zu irgendwelchen oberen Schichten. Warum brauchen wir ReLu und wie funktioniert es?

In Bezug auf Dropout ... Wie funktioniert Dropout? Ich habe ein Video von G. Hinton gehört. Er sagte, dass es eine Strategie gibt, die beim Training der Gewichte zufällig die Hälfte der Knoten ignoriert und das Gewicht bei der Vorhersage halbiert. Er sagt, es sei von zufälligen Wäldern inspiriert und arbeite genauso wie das geometrische Mittel dieser zufällig trainierten Modelle.

Ist diese Strategie die gleiche wie Dropout?

Kann mir jemand helfen, das zu lösen?

+1

Eine sehr gute Quelle ist das [CVPR 2014 Tutorial zur visuellen Erkennung im großen Stil] (https://sites.google.com/site/lsvrtutorialcvpr14/home/deeplearning) von [Marc'Aurelio Ranzato] (http://www.cs.toronto.edu/~ranzato/). Es stellt beide Themen vor und erläutert sie. – deltheil

+0

@deltheil Es tut mir leid, aber ich kann nichts über Dropout in dem Papier finden, das du verlinkt hast. Durchsucht das Dokument nach "Aussetzer" gibt drei Vorkommen zurück, alle drei nur eine Erwähnung, dass Aussetzer hier verwendet wird. Haben Sie eine Seite nr, auf der Details fehlen? Ich lese es schon durch, habe aber nichts über Dropout gefunden – DBX12

Antwort

15

relu: Die Gleichrichterfunktion ist eine Aktivierungsfunktion f (x) = Max (0, x), die wie jede andere Aktivierungsfunktion von Neuronen verwendet werden kann, ist ein Knoten, der den Gleichrichter-Aktivierungsfunktion ist ein ReLu-Knoten genannt. Der Hauptgrund, warum es verwendet wird, ist, wie effizient es im Vergleich zu konventionelleren Aktivierungsfunktionen wie dem Sigmoid- und Hyperbeltangens berechnet werden kann, ohne einen signifikanten Unterschied in der Generalisierungsgenauigkeit zu machen. Die Gleichrichteraktivierungsfunktion wird anstelle einer linearen Aktivierungsfunktion verwendet, um dem Netzwerk eine Nichtlinearität hinzuzufügen, andernfalls würde das Netzwerk nur in der Lage sein, eine lineare Funktion zu berechnen.

Dropout: Ja, die beschriebene Technik ist die gleiche wie Dropout. Der Grund, dass das zufällige Ignorieren von Knoten nützlich ist, liegt darin, dass es verhindert, dass Abhängigkeiten zwischen Knoten auftreten (z. B. Knoten lernen keine Funktionen, die auf Eingabewerte von einem anderen Knoten angewiesen sind), dies ermöglicht dem Netzwerk, eine robustere Beziehung zu lernen. Der Ausfall von Implementierungen wirkt sich in etwa genauso aus wie der Durchschnitt eines Netzwerk-Komitees, allerdings sind die Kosten sowohl in Bezug auf die Zeit als auch auf die Speicherkapazität erheblich geringer.

+1

Doese ReLu connect mit einer oberen Schicht? Ich überprüfe die Architektur von AlexNet für die Imagine-Aufgabe. Es scheint, dass ReLu eine unabhängige Schicht ist. Wenn dies der Fall ist, übergibt es keinen Wert an die oberen Schichten. Warum brauchen wir diese "irrelevante" Schicht? – user3783676

+3

Ein ReLu ist nur ein einzelnes Neuron, das die Gleichrichteraktivierungsfunktion * max (0, n) * implementiert, keine völlig neue Schicht. Obwohl der Bericht keine genauen Details angibt, sieht es so aus, als ob diese Aktivierungsfunktion für jedes Neuron im Netzwerk verwendet wird, sowohl für die konvolutionellen als auch für die vollständig verbundenen Schichten. – Hungry

+0

ReLu-Funktion sieht immer noch irgendwie linear aus. Kann es sowohl Probleme als auch Sigmoid lösen? – gisek

Verwandte Themen