2017-10-17 8 views
0

Könnte jemand bitte helfen Sie mir bei der Gestaltung State Space Graph für Markov Entscheidungsprozess von Autorennen Beispiel aus Berkeley CS188.Repräsentieren Zustandsraum Graph für Markov-Prozess für Autorennen Beispiel

Autorennen Beispiel enter image description here

Zum Beispiel kann ich 100 Aktionen tun und ich mag Wert Iteration läuft beste Politik zu bekommen, um meine Chancen zu maximieren.

Wenn ich nur 3 Zustände (cool, warm und überhitzt) habe, weiß ich nicht, wie man "End" -Zustand hinzufügt und MDP vervollständigt.

Ich denke über 100 Cool States und 100 Warm States, und zum Beispiel von Cool1 können Sie zu Cool2, Warm2 oder Überhitzt und so weiter gehen. In diesem Beispiel sind meine Werte für Zustände nahe 0 höher als für Zustände, die auf 100 geschlossen sind.

Fehle ich etwas in MDP?

+0

Man kann feststellen, dass der Zustand [Overheated] des FSA der für den Endzustand gesuchte ist (The End). – user3666197

Antwort

0

Es sollte nur 3 mögliche Zustände geben. "Cool" - und "Warm" -Zustände sind wiederkehrend und "überhitzter" Zustand ist absorbierend, da die Wahrscheinlichkeit, den Zustand zu verlassen, 0 ist.

Sie können zwei Aktionen ausführen, langsam oder schnell, sowohl für "cool" als auch für "warm" "Staaten, wie in der Problemstellung beschrieben. Die Wahrscheinlichkeitsübergangsmatrix und Stufenbelohnungen können leicht aus dem Diagramm ermittelt werden. Beispiel: P (schnell, von kalt nach warm) = 0,5 und R (schnell, von kalt nach warm) = 2.

Je nach Zielsetzung können Sie es als endlichen Horizont oder unendlichen Horizont lösen MDP.