2017-01-05 3 views
2

Ich frage mich, warum in den meisten Modellen von GAN (zumindest in MNIST) ich gesehen habe, war die Aktivierungsfunktion (für den Diskriminator und den Generator) tanh? Ist ReLu nicht effizienter? (Ich lese das immer für vorausschauende Netzwerke)Generative adversarial Netzwerke tanh?

Danke!

+0

Es wäre nützlich, wenn Sie einen Link zu einem Papier oder Code bereitstellen könnten, damit jeder genau weiß, wovon Sie sprechen. –

+0

Haben Sie eine zufriedenstellende Antwort gefunden? Ich suche auch nach der Antwort. –

Antwort

1

Manchmal hängt es von dem Bereich ab, in den die Aktivierungen fallen sollen. Wann immer du "Tore" in der ML-Literatur hörst, wirst du wahrscheinlich ein Sigmoid sehen, das zwischen 0 und 1 liegt. In diesem Fall möchten sie vielleicht, dass Aktivierungen zwischen -1 und 1 fallen, also benutzen sie tanh. This page sagt tanh zu benutzen, aber sie geben keine Erklärung. DCGAN verwendet ReLUs oder undichte ReLUs mit Ausnahme der Ausgabe des Generators. Macht Sinn - was ist, wenn die Hälfte Ihrer Einbettung zu Nullen wird? Es könnte besser sein, eine einfach variierende Einbettung zwischen -1 und 1 zu haben.

Ich würde gerne die Eingabe von jemand anderem hören, da ich mir nicht sicher bin.

+1

Danke für die Antwort! Warum, wenn sie ein Sigmoid für die letzte Ebene verwenden, möchten sie in der vorherigen Ebene in -1 und 1 fallen? Kann die ReLu-Ausgabe nicht sigmoid gehandhabt werden? (In einem Beispiel, in einem mlp, habe ich bereits ReLu für die mittlere Schicht und Sigmoid am Ende verwendet und es gab überhaupt keine Probleme) Aber ich denke, ich verstehe. In der Tat, wenn Sie viele Nullen in der Einbettung haben, werden die generierten Pixel alle Weiß sein. (Aber in diesem Fall, warum DCGAN ReLus verwendet) Nochmals vielen Dank! –

1

Aus dem DCGAN-Papier [Radford et al. https://arxiv.org/pdf/1511.06434.pdf] ...

„The relu Aktivierung (Nair & Hinton, 2010) in den Generator mit der Ausnahme des Ausgabe Schicht verwendet wird, die die tanh-Funktion verwendet. Wir haben beobachtet, dass eine beschränkte Aktivierung unter Verwendung des Modells erlaubt zu lernen Sie schneller, den Farbraum der Trainingsverteilung zu sättigen und abzudecken Innerhalb des Diskriminators fanden wir die leaky rektifizierte Aktivierung (Maas et al., 2013) (Xu et al., 2015) gut funktionieren, besonders für höhere Auflösung Modellierung. Dies ist im Gegensatz zu der ursprünglichen GAN-Papier, die die maximale Aktivierung verwendet (Goodfellow et al., 2013). "

Es könnte sein, dass die Symmetrie von tanh hier von Vorteil ist, da das Netzwerk auf eine symmetrische Weise dunklere Farben und hellere Farben behandeln sollte.

Verwandte Themen