Warum gewichten wir die jüngsten Belohnungen bei nichtstationärem Verstärkungslernen höher?

Das Buch ‚Einführung in Reinforcement Learning‘ von Barto und Sutton, erwähnt folgende über instationäre RL Probleme -.Warum gewichten wir die jüngsten Belohnungen bei nichtstationärem Verstärkungslernen höher?

„uns Verstärkung Lernprobleme oft begegnen, die effektiv nicht-stationären sind In solchen Fällen ist es sinnvoll, Gewicht macht kürzliche Belohnungen mehr als lang vergangene. "(siehe hier - https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node20.html)
Ich bin davon nicht absolut überzeugt. Zum Beispiel könnte ein Explorer-Agent, dessen Aufgabe darin besteht, einen Ausgang für ein Labyrinth zu finden, tatsächlich verlieren, weil er in der fernen Vergangenheit eine falsche Wahl getroffen hat.
Könnten Sie bitte erklären, warum es sinnvoll ist, neuere Belohnungen höher zu bewerten?

Quelle

2016-05-08 Sudhanshu Mittal

Wenn das Problem nicht stationär ist, ist die Erfahrung in der Vergangenheit zunehmend veraltet und sollte ein geringeres Gewicht erhalten. Auf diese Weise wird der Fehler, wenn ein Entdecker in der Vergangenheit einen Fehler macht, durch neuere Erfahrungen überschrieben.

Quelle

2016-05-08 13:03:07

Der Text bezieht sich ausdrücklich auf nichtstationäre Probleme. Bei solchen Problemen ändern sich die MDP-Eigenschaften. Zum Beispiel kann sich die Umgebung ändern und daher kann die Übergangsmatrix oder die Belohnungsfunktion anders sein. In diesem Fall ist eine Belohnung, die in der Vergangenheit gesammelt wurde, möglicherweise nicht mehr signifikant.

In Ihrem Beispiel ist das MDP stationär, weil sich das Labyrinth nie ändert, also ist Ihre Aussage korrekt. Wenn (zum Beispiel) der Ausgang des Irrgartens sich nach einem Gesetz ändern würde (das Sie nicht kennen), dann ist es sinnvoll, die jüngsten Belohnungen mehr abzuwägen (zum Beispiel, wenn die Belohnung die Manhattan - Distanz von der Agentenposition zum Ausfahrt).

Im Allgemeinen ist der Umgang mit instationären MDPs sehr komplex, weil Sie normalerweise nicht wissen, wie sich die Merkmale ändern (im obigen Beispiel wissen Sie nicht, wie der Exit-Speicherort geändert wird). Im Gegenteil, wenn Sie das Gesetz kennen, das bestimmt, wie sich die Umwelt verändert, sollten Sie es in das MDP-Modell aufnehmen.

Quelle

2016-05-08 13:06:14 Simon

Können Sie weitere Einzelheiten oder Quellen/Beispiele angeben, wie Sie das bekannte Gesetz, das die Umgebung im MDP-Modell ändert, einbeziehen? – Voltronika

@Voltronika Es tut mir leid, aber ich habe nie instationäre Probleme untersucht. – Simon

Warum gewichten wir die jüngsten Belohnungen bei nichtstationärem Verstärkungslernen höher?

Antwort

Verwandte Themen