Mit einem Zustandsvektor können wir rekursiv eine Sequenz auf eine gierige Weise dekodieren, indem wir jeden Ausgang nacheinander erzeugen, wobei jede Vorhersage von der vorherigen Ausgabe abhängt. Ich habe kürzlich eine Arbeit gelesen, die die Verwendung der Strahlsuche während der Decodierung mit einer Strahlgröße von 1 (k = 1) beschrieben hat. Wenn wir bei jedem Schritt nur die beste Ausgabe beibehalten, ist das nicht dasselbe wie die gierige Dekodierung und bietet keinen der Vorteile, die die Strahlsuche normalerweise bietet?Was ist der Unterschied zwischen einem gierigen Decoder RNN und einem Beam-Decoder mit k = 1?
3
A
Antwort
4
Endlich eine Antwort gefunden: Strahlgröße von 1 ist das gleiche wie gierige Suche.
Von "Abstractive Satz Summarization mit Aufmerksamer Recurrent Neural Networks":
"k refers to the size of the beam for generation; k = 1 implies greedy generation."
Verwandte Themen
- 1. Unterschied zwischen einem gierigen und einem nicht-gierigen Datenfluß Block mit boundedcapacity definiert
- 2. Was ist der Unterschied zwischen einem Controller und einem Service?
- 3. Was ist der Unterschied zwischen einem Index und einem Fremdschlüssel?
- 4. Was ist der Unterschied zwischen einem Primärschlüssel und einem Ersatzschlüssel?
- 5. Was ist der Unterschied zwischen einem Feature und einem Label?
- 6. Was ist der Unterschied zwischen einem RoutedCommand und einem RoutedUICommand?
- 7. Was ist der Unterschied zwischen einem Muster und einem Pfad?
- 8. Was ist der Unterschied zwischen einem Integrator und einem Tiefpassfilter?
- 9. Was ist der Unterschied zwischen einem Anwendungscontroller und einem Anwendungskontext?
- 10. Was ist der Unterschied zwischen einem Streamwriter und einem Binarywriter?
- 11. Was ist der Unterschied zwischen einem Key und einem KeySpec?
- 12. Was ist der Unterschied zwischen einem Token und einem Digest?
- 13. Was ist der Unterschied zwischen einem Domänenklassendiagramm und einem Designklassendiagramm?
- 14. Was ist der Unterschied zwischen einem Tupel und einem compressed_pair?
- 15. Was ist der Unterschied zwischen einem Klassendiagramm und einem Objektdiagramm?
- 16. Was ist der Unterschied zwischen einem Iterator und einem Generator?
- 17. Was ist der Unterschied zwischen einem Array und einem Objekt?
- 18. Was ist der Unterschied zwischen einem Tabellenindex und einem Ansichtsindex?
- 19. Was ist der Unterschied zwischen einem Algorithmus und einem Entwurfsmuster
- 20. Was ist der Unterschied zwischen einem Nanokern und einem Exokernel?
- 21. Was ist der Unterschied zwischen einem Helfer und einem Teil?
- 22. Was ist der Unterschied zwischen einem Workflow und einem Flowchart?
- 23. Was ist der Unterschied zwischen einem Instanzinitialisierer und einem Konstruktor?
- 24. Was ist der Unterschied zwischen einem ViewModel und einem Controller?
- 25. Was ist der Unterschied zwischen einem Prozess und einem Prozessabbild?
- 26. Was ist der Unterschied zwischen Abschaffung/1 und Retractall/1?
- 27. Was ist der Unterschied zwischen O (1) und Θ (1)?
- 28. Was ist der Unterschied zwischen (1,) und (1) in Python
- 29. BASH: Unterschied zwischen "Export k = 1" vs. "k = 1"
- 30. Was ist der Unterschied zwischen \ 1 und $ 1 in einem Perl Regex?