Ich versuche, einen adaptiven Controller für ein Steuerungssystem zu schreiben, nämlich ein Power-Management-System mit Q-Learning. Ich habe vor kurzem ein Spielzeug-RL-Problem für das Wagenstangensystem implementiert und die Formulierung des Hubschraubersteuerproblems aus den Notizen von Andrew NG herausgearbeitet. Ich weiß zu schätzen, dass die Approximation von Wertfunktionen in solchen Situationen unerlässlich ist. Beide populären Beispiele haben jedoch eine sehr geringe Anzahl von möglichen diskreten Aktionen. Ich habe drei Fragen:Reinforcement Learning: Das Dilemma der Wahl Diskretisierung Schritte und Leistungsmetriken für kontinuierliche Aktion und kontinuierlichen Zustandsraum
1) Was ist der richtige Weg, um solche Probleme zu behandeln, wenn Sie nicht eine kleine Anzahl von diskreten Aktionen haben? Die Dimensionalität meiner Handlungen und Zustände scheint aufgebläht zu sein und das Lernen sieht sehr schlecht aus, was mich zu meiner nächsten Frage bringt.
2) Wie kann ich die Leistung meines Agenten messen? Da sich die Belohnung in Verbindung mit der dynamischen Umgebung ändert, kann ich zu jedem Zeitschritt nicht die Leistungsmetriken für meinen kontinuierlichen RL-Agenten bestimmen. Auch im Gegensatz zu Gridworld-Problemen kann ich die Q-Wert-Tabelle aufgrund der großen Zustands-Aktions-Paare nicht überprüfen, woher weiß ich, dass meine Aktionen optimal sind?
3) Da ich ein Modell für die Entwicklung von Staaten durch die Zeit habe. Zustände = [Y, U]. Y [t + 1] = aY [t] + bA, wobei A eine Aktion ist. Die Wahl des Diskretisierungsschritts für Aktionen A beeinflusst auch, wie fein ich meine Zustandsvariable Y diskretisieren muss. Wie wähle ich meine Diskretisierungsschritte? Vielen Dank!