Ich möchte Q-Learning für das Chrome-Dinosaurier-Spiel implementieren (das, das Sie spielen können, wenn Sie offline sind).Verschiedene Belohnungen für denselben Zustand beim Lernen mit Verstärkung
Ich definierte meinen Zustand als: Abstand zum nächsten Hindernis, Geschwindigkeit und die Größe des nächsten Hindernisses.
Für die Belohnung wollte ich die Anzahl der erfolgreich bestandenen Hindernisse verwenden, aber es könnte passieren, dass der gleiche Zustand verschiedene unmittelbare Belohnungen hat. Die gleiche Art von Hindernis könnte später im Spiel wieder auftauchen, aber die Belohnung für das Bestehen wäre höher, weil bereits mehr Hindernisse überwunden wurden.
Meine Frage ist jetzt: Ist das ein Problem oder würde Q-Learning noch funktionieren? Wenn nicht, gibt es einen besseren Weg?
Ich würde vorschlagen, ein Belohnungsschema mit einer großen negativen Belohnung für das Sterben. Und eine positive Belohnung jedes Mal, wenn der Punktestand erhöht wird (wahrscheinlich gleich dem Punktezuwachs). Ich sehe kein Problem für Q-Learning - ich habe erstaunliche Pacman-Agenten gesehen, die Vanilla Q-Learning verwenden. Dinosaurier-Spiel sollte kein Problem sein. –