2016-09-14 3 views
3

Mit einem Zustandsvektor können wir rekursiv eine Sequenz auf eine gierige Weise dekodieren, indem wir jeden Ausgang nacheinander erzeugen, wobei jede Vorhersage von der vorherigen Ausgabe abhängt. Ich habe kürzlich eine Arbeit gelesen, die die Verwendung der Strahlsuche während der Decodierung mit einer Strahlgröße von 1 (k = 1) beschrieben hat. Wenn wir bei jedem Schritt nur die beste Ausgabe beibehalten, ist das nicht dasselbe wie die gierige Dekodierung und bietet keinen der Vorteile, die die Strahlsuche normalerweise bietet?Was ist der Unterschied zwischen einem gierigen Decoder RNN und einem Beam-Decoder mit k = 1?

Antwort

4

Endlich eine Antwort gefunden: Strahlgröße von 1 ist das gleiche wie gierige Suche.

Von "Abstractive Satz Summarization mit Aufmerksamer Recurrent Neural Networks":

"k refers to the size of the beam for generation; k = 1 implies greedy generation." 
Verwandte Themen