Ist einfach tief seq2seq ohne zu spähen oder Aufmerksamkeit konvergieren?

Gibt es eine erfolgreiche Anwendung des deep seq2seq-Modells, bei der der Decoder im ersten Schritt nur den Ausgangszustand des Encoders (letzter Schritt des internen Encoder-Status) liest und mehrere Schritte dekodiert?Ist einfach tief seq2seq ohne zu spähen oder Aufmerksamkeit konvergieren?

I.e. kein Piepen, keine Aufmerksamkeit usw. Bei jedem Schritt ist die Eingabe des Decoders nur die Ausgabe und der Zustand des vorherigen Schritts.

Ich könnte sehen, ein paar Seq2seq Autoencoder-Implementierung, frage mich, ob sie wirklich nach langer Zeit des Trainings konvergieren, vor allem, wenn der interne Zustand klein ist.

Quelle

2017-05-20 user2512796

Wenn nur der letzte versteckte Zustand ohne Aufmerksamkeit verwendet wird, ist die Darstellungsleistung unzureichend, insbesondere wenn die versteckte Größe klein ist. Einige Systeme vor der Erfindung der Aufmerksamkeit sind

https://arxiv.org/abs/1409.3215

https://arxiv.org/abs/1506.05869

Quelle

2017-12-22 02:05:06

Ist einfach tief seq2seq ohne zu spähen oder Aufmerksamkeit konvergieren?

Antwort

Verwandte Themen