2017-04-07 4 views
3

Für ein Einzelspieler-Spiel sind Q-Wert-Updates ziemlich intuitiv. Der aktuelle Zustand und der zukünftige Zustand hängen von der Strategie eines einzelnen Spielers ab, für zwei Spieler ist dies jedoch nicht der Fall. Betrachten Sie das Szenario, in dem der Gegner gewinnt und das Spiel beendet wird. Wie werden die Q-Werte aktualisiert?Wie aktualisierst du Q-Werte für ein Zwei-Spieler-Spiel?

Antwort

1

Ein gängiger Ansatz ist, deinen Gegner als Teil der Umgebung zu betrachten, also würde der Zustand so definiert werden, dass er das Sagen, die Position des Gegners enthält. Sie wählen eine Aktion aus und führen sie aus, indem Sie den Status ändern. Der Gegner ergreift dann seine Aktion und ändert den Zustand erneut. Ihr Agent erhält dann den Zustand prime, der das Ergebnis seiner vorherigen Aktion und der vorherigen Aktion des Gegners ist.

So in dem Fall, dass in dem Zustand s Sie Maßnahmen ergreifen a, dann die Gegner wirken und beenden das Spiel, würden Sie einen Übergang von s zu einem Terminal Zustand über a aufzeichnen.

Verwandte Themen