Das Buch ‚Einführung in Reinforcement Learning‘ von Barto und Sutton, erwähnt folgende über instationäre RL Probleme -.Warum gewichten wir die jüngsten Belohnungen bei nichtstationärem Verstärkungslernen höher?
„uns Verstärkung Lernprobleme oft begegnen, die effektiv nicht-stationären sind In solchen Fällen ist es sinnvoll, Gewicht macht kürzliche Belohnungen mehr als lang vergangene. "(siehe hier - https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node20.html)
Ich bin davon nicht absolut überzeugt. Zum Beispiel könnte ein Explorer-Agent, dessen Aufgabe darin besteht, einen Ausgang für ein Labyrinth zu finden, tatsächlich verlieren, weil er in der fernen Vergangenheit eine falsche Wahl getroffen hat.
Könnten Sie bitte erklären, warum es sinnvoll ist, neuere Belohnungen höher zu bewerten?
Können Sie weitere Einzelheiten oder Quellen/Beispiele angeben, wie Sie das bekannte Gesetz, das die Umgebung im MDP-Modell ändert, einbeziehen? – Voltronika
@Voltronika Es tut mir leid, aber ich habe nie instationäre Probleme untersucht. – Simon