Ich habe Probleme beim Verständnis der Monte-Carlo-Politik Bewertungsalgorithmus. Was ich lese ist, dass G
ist die durchschnittliche Rendite nach dem Besuch eines bestimmten Staates, sagen wir s1
, zum ersten Mal. Bedeutet dies, dass alle Belohnungen nach diesem Status s1
bis zum Ende der Episode gemittelt werden und dann der resultierende Wert s1
zugewiesen wird? Oder bedeutet es, dass die sofortige Belohnung für eine Aktion in s1
im Durchschnitt über mehrere Episoden erhalten wird?Monte-Carlo-Politik Auswertung Verwirrung
Antwort
Der Zweck der Monte-Carlo-Richtlinienauswertung besteht darin, eine Wertfunktion für eine gegebene Richtlinie π zu finden. Eine Wertfunktion für eine Richtlinie sagt uns nur die erwartete kumulative vergünstigte Prämie, die sich aus einem Zustand ergibt, der dann für immer oder bis zum Ende der Episode gilt. Es sagt uns die erwartete Rückkehr für einen Staat.
Ein Monte-Carlo-Ansatz zur Schätzung dieser Wertfunktion besteht also darin, die Richtlinie einfach auszuführen und den Ertrag aus jedem Status zu verfolgen. Wenn ich zum ersten Mal einen Staat erreiche, wie viel Rabatt erhöhe ich dann im Rest der Folge? Durchschnitt alle diese, die du beobachtest (eine Rückkehr für jeden Zustand, den du besuchst, für jede Episode, die du führst).
Bedeutet dies, alle Belohnungen im Durchschnitt nach diesem Zustand
s1
bis zum Ende der Episode und dann den resultierenden Wert zus1
zuweisen? Oder bedeutet es, dass die sofortige Belohnung für eine Aktion ins1
im Durchschnitt über mehrere Episoden erhalten wird?
Also, Ihr erster Gedanke ist richtig.
- 1. Tensorflow Auswertung: Auswertung aller Bilder
- 2. PySpark Auswertung
- 3. Auswertung MapboxGLManager.mapStyles
- 4. Operatoren Auswertung
- 5. Tuple Auswertung
- 6. Metaprogrammierung Auswertung
- 7. Verwirrung in Linie über Body Inhalt
- 8. Stylesheet Verwirrung
- 9. Bitmap.Lockbits Verwirrung
- 10. Verwirrung C
- 11. DateTime Verwirrung
- 12. dynamic_cast Verwirrung
- 13. Freunde Verwirrung
- 14. Datenbank Verwirrung
- 15. ggplot2 Verwirrung
- 16. WM_KEYDOWN Verwirrung
- 17. NSTimer Verwirrung
- 18. Kreuzkorrelationskoeffizient Verwirrung
- 19. Scanf Verwirrung
- 20. Drucken Verwirrung
- 21. Javascript Verwirrung
- 22. ObsoleteAttribute Verwirrung
- 23. Verwirrung in
- 24. Calendar.HOUR_OF_DAY Verwirrung
- 25. EventBus Verwirrung
- 26. Hexdump Verwirrung
- 27. COBOL Verwirrung
- 28. QThread Verwirrung
- 29. Conceptual Verwirrung
- 30. Klassendiagramm Verwirrung