2016-05-04 13 views
2

Ich mag folgendes Modell:Wie organisiert man das wiederkehrende neuronale Netzwerk?

y (t) = F (x (t-1), x (t-2), ... x (tk))

Oder sagen wir eine Funktion, deren aktueller Ausgang von den letzten k Eingängen abhängt.

1- Ich weiß, eine Möglichkeit, ein klassisches neuronales Netz mit k Eingängen als {x (t-1), x (t-2), ... x (tk)} haben, ist für jedeny (t) und trainieren Sie es. Was ist der Vorteil eines RNN, um dieses Problem zu lösen?

2- Unter Verwendung von RNN sollte ich nur das x (t) (oder x (t-1)) verwenden und annehmen, dass die verborgene (n) Schicht (en) die Beziehung von y (t) zu den vergangenen k Eingängen findet durch das Haben in seinem Gedächtnis (versteckte Schicht)?

3- die Verwendung von tiefen Netzen wie Deep RNN oder LSTM hat einen größeren Vorteil für ein solches Problem, wenn wir die Ausgabe auf der Grundlage der letzten k Eingaben schätzen wollen?

Antwort

3
  1. Ich würde dir nicht empfehlen, eine klassische Vanille RNN zu verwenden. Theoretisch hat es die Fähigkeit, Informationen von früheren Eingaben in seinem Speicher zu speichern, aber praktisch erfordert es eine expotent große Anzahl von Knoten.
  2. Vorausgesetzt, klassische Vanilla-Implementierungen so lange wie moderne Architekturen (wie LSTM oder GRU) - es hängt davon ab, ob Sie ein direktionales oder bidirektionales Modell verwenden möchten. Wenn Sie den nächsten Schritt vorhersagen wollen - normalerweise ist eine direktionale Architektur besser. Wenn Sie die gegebenen Sequenzen besser analysieren wollen - empfehle ich Ihnen, bidirektionale anzuwenden.
  3. LSTMs und GRUs verwenden zusätzliche Speicherzellen, die Ihnen helfen, lange Zeitabhängigkeiten zwischen Eingaben im Speicher zu halten. Sie gelten derzeit als die besten Architekturen. Tiefe RNNs - sind in der Regel tiefe Netzwerke mit wiederkehrenden Topologien - sie nutzen ihre Tiefe auf die gleiche Weise wie feedforward neuronale Netze.
+0

Vielen Dank für den Hinweis. 1- Ich denke, dass bi-RNN nicht zu meinem Problem passt, da ich die Wahrscheinlichkeit der nächstbesten Entscheidung basierend auf den vorherigen Entscheidungen vorhersagen möchte (in einer anderen Perspektive). 2- Angenommen, ich benutze LSTM, bin ich immer noch nicht sicher, ob alle k vorherigen Instanzen von x (t) als separate Eingänge in das Netzwerk oder nur die letzte x (t-1) als einzige Eingabe verwenden würde Genug und wenn das Netzwerk den letzten k gesehen x (t) in seiner Architektur verfolgen kann? – Bob

+0

Simpy benutze es als Metaparameter und versuche eine Grid-Suche, um das beste Setup zu finden :) –

+0

Wenn meine Antwort nützlich war - bitte akzeptiere sie als richtig oder wähle meine Antwort :) –

Verwandte Themen