2017-03-16 4 views
0

Ich habe Probleme beim Verständnis der Monte-Carlo-Politik Bewertungsalgorithmus. Was ich lese ist, dass G ist die durchschnittliche Rendite nach dem Besuch eines bestimmten Staates, sagen wir s1, zum ersten Mal. Bedeutet dies, dass alle Belohnungen nach diesem Status s1 bis zum Ende der Episode gemittelt werden und dann der resultierende Wert s1 zugewiesen wird? Oder bedeutet es, dass die sofortige Belohnung für eine Aktion in s1 im Durchschnitt über mehrere Episoden erhalten wird?Monte-Carlo-Politik Auswertung Verwirrung

Antwort

1

Der Zweck der Monte-Carlo-Richtlinienauswertung besteht darin, eine Wertfunktion für eine gegebene Richtlinie π zu finden. Eine Wertfunktion für eine Richtlinie sagt uns nur die erwartete kumulative vergünstigte Prämie, die sich aus einem Zustand ergibt, der dann für immer oder bis zum Ende der Episode gilt. Es sagt uns die erwartete Rückkehr für einen Staat.

Ein Monte-Carlo-Ansatz zur Schätzung dieser Wertfunktion besteht also darin, die Richtlinie einfach auszuführen und den Ertrag aus jedem Status zu verfolgen. Wenn ich zum ersten Mal einen Staat erreiche, wie viel Rabatt erhöhe ich dann im Rest der Folge? Durchschnitt alle diese, die du beobachtest (eine Rückkehr für jeden Zustand, den du besuchst, für jede Episode, die du führst).

Bedeutet dies, alle Belohnungen im Durchschnitt nach diesem Zustand s1 bis zum Ende der Episode und dann den resultierenden Wert zu s1 zuweisen? Oder bedeutet es, dass die sofortige Belohnung für eine Aktion in s1 im Durchschnitt über mehrere Episoden erhalten wird?

Also, Ihr erster Gedanke ist richtig.