1

Ich versuche, einen adaptiven Controller für ein Steuerungssystem zu schreiben, nämlich ein Power-Management-System mit Q-Learning. Ich habe vor kurzem ein Spielzeug-RL-Problem für das Wagenstangensystem implementiert und die Formulierung des Hubschraubersteuerproblems aus den Notizen von Andrew NG herausgearbeitet. Ich weiß zu schätzen, dass die Approximation von Wertfunktionen in solchen Situationen unerlässlich ist. Beide populären Beispiele haben jedoch eine sehr geringe Anzahl von möglichen diskreten Aktionen. Ich habe drei Fragen:Reinforcement Learning: Das Dilemma der Wahl Diskretisierung Schritte und Leistungsmetriken für kontinuierliche Aktion und kontinuierlichen Zustandsraum

1) Was ist der richtige Weg, um solche Probleme zu behandeln, wenn Sie nicht eine kleine Anzahl von diskreten Aktionen haben? Die Dimensionalität meiner Handlungen und Zustände scheint aufgebläht zu sein und das Lernen sieht sehr schlecht aus, was mich zu meiner nächsten Frage bringt.

2) Wie kann ich die Leistung meines Agenten messen? Da sich die Belohnung in Verbindung mit der dynamischen Umgebung ändert, kann ich zu jedem Zeitschritt nicht die Leistungsmetriken für meinen kontinuierlichen RL-Agenten bestimmen. Auch im Gegensatz zu Gridworld-Problemen kann ich die Q-Wert-Tabelle aufgrund der großen Zustands-Aktions-Paare nicht überprüfen, woher weiß ich, dass meine Aktionen optimal sind?

3) Da ich ein Modell für die Entwicklung von Staaten durch die Zeit habe. Zustände = [Y, U]. Y [t + 1] = aY [t] + bA, wobei A eine Aktion ist. Die Wahl des Diskretisierungsschritts für Aktionen A beeinflusst auch, wie fein ich meine Zustandsvariable Y diskretisieren muss. Wie wähle ich meine Diskretisierungsschritte? Vielen Dank!

Antwort

3

Sie können einen Lernalgorithmus für die kontinuierliche Aktionserweiterung verwenden und das Diskretisierungsproblem vollständig vermeiden. Ich würde vorschlagen, dass Sie einen Blick auf CACLA werfen. Für die Leistung müssen Sie die akkumulierte Belohnung Ihres Agenten während einer Episode mit deaktiviertem Lernen messen. Da Ihre Umgebung stochastisch ist, nehmen Sie viele Messungen vor und mitteln sie.

2

Werfen Sie einen Blick auf Algorithmen für die Richtliniensuche. Im Grunde lernen sie direkt eine parametrische Politik ohne eine explizite Wertfunktion und vermeiden so das Problem der Annäherung der Q-Funktion für kontinuierliche Aktionen (zB wird keine Diskretisierung des Aktionsraums benötigt).

Einer der einfachsten und frühesten Richtliniensuchalgorithmen ist der Richtliniengradient. Schauen Sie sich here für eine kurze Übersicht über das Thema an. Und here für eine Umfrage über die Politiksuche (derzeit gibt es neuere Techniken, aber das ist ein sehr guter Ausgangspunkt). Im Falle der Kontrolle Problem, gibt es eine sehr einfache Spielzeugaufgabe, die Sie sehen können, die Linear Quadratic Gaussian Regulator (LQG). Here finden Sie eine Vorlesung mit diesem Beispiel und eine Einführung in die Richtliniensuche und den Richtliniengradienten.

In Bezug auf Ihren zweiten Punkt, wenn Ihre Umgebung dynamisch ist (das heißt, die Belohnungsfunktion der Übergangsfunktion (oder beide) ändern sich im Laufe der Zeit), dann müssen Sie nichtstationäre Richtlinien betrachten. Das ist typischerweise ein viel schwierigeres Problem in RL.

Verwandte Themen