0

Ich habe ein 500 * 500 Raster mit 7 verschiedenen Strafwerten. Ich muss einen RL-Agenten erstellen, dessen Aktionsraum 11 Aktionen enthält. (Links, Rechts, Hoch, Runter, 4 diagonale Richtungen, Geschwindigkeit, Geschwindigkeit und Geschwindigkeit). Wie kann ich dieses Problem lösen? Die Wahrscheinlichkeit der 'Aktion durchgeführt', die gewählt wurde, ist 0,8. Andernfalls wird eine zufällige Aktion ausgewählt. Außerdem können sich die Strafwerte dynamisch ändern.Verstärkung Lernen in dynamischer Umgebung mit großem Status-Aktionsraum

+0

Was meinen Sie, wenn sich die Strafwerte dynamisch ändern? Ist es etwas, wo Zustand 1 einige Verteilungen mit einem Mittelwert von x zurückgeben könnte? oder ist es völlig einheitlich? Sind die dynamischen Strafwerte, die Sie gerade behandeln, Belohnungsformen für Sie? –

+0

Mit dynamischer Änderung, ich nehme an, in einem Fall, den Zustand 1 erreichend, gibt es eine Strafe von 4. In anderen Fällen kann das Erreichen von Zustand 1 eine Strafe von 5 ergeben. Sie können es als Zustand 1 mit gezogener Strafe nehmen aus einer normalen Verteilung. Dies gilt für jeden Staat. –

Antwort

0

Werfen Sie einen Blick auf dieses Kapitel von Sutton incompletideas.net/sutton/book/ebook/node15.html, insbesondere seine Experimente in späteren Abschnitten. Ihr Problem scheint dem N-Armed-Banditen ähnlich zu sein, da jeder Arm eine normale Belohnungsverteilung liefert. Während sich dieses Kapitel hauptsächlich auf die Exploration konzentriert, gilt das Problem.

Eine andere Möglichkeit, es zu betrachten, ist, wenn Ihr Zustand wirklich eine normale Verteilung der Strafen zurückgibt, müssen Sie die Domäne ausreichend erkunden, um den Mittelwert des Zustands, Aktion Tupel zu erhalten. Der Mittelwert in diesen Fällen ist Q *, wodurch Sie die optimale Richtlinie erhalten.

Als Folge, wenn der Zustandsraum zu groß oder kontinuierlich ist, kann es sich lohnen, die Verallgemeinerung mit einem Funktionsapproximator zu untersuchen. Während die gleichen Konvergenzregeln gelten, gibt es Fälle, in denen Funktionsapproximationen zu Problemen führen. Ich würde sagen, dass dies jedoch den Rahmen dieser Diskussion sprengen würde.

Verwandte Themen