2017-02-14 4 views
0

Ich habe Probleme, eine gute Belohnung Funktion für das Pendel Problem, die Funktion, die ich verwende: -x ** 2 + - 0,25 * (xdot ** 2) , die die quadratische ist Fehler von oben. wobei x die aktuelle Position des Pendels und x die Winkelgeschwindigkeit darstellt.Verstärkung lernen, Pendel Python

es dauert eine Menge Zeit mit dieser Funktion und manchmal funktioniert nicht. hat jemand andere Vorschläge? Ich habe in Google gesucht, aber nichts gefunden i

+1

Ich denke, Sie sollten dies lieber an Kreuz-validierte oder sogar Datascience-Stack-Communities posten; Überlauf ist technischen Aspekten gewidmet, dh Codierung, nicht Methodik. –

+1

Viele Dinge können die Konvergenzgeschwindigkeit und ihre Effektivität beeinflussen, insbesondere den Lernalgorithmus (Q-Learning, SARSA, Deep Q-learning), die Lernrate und die Größe des Raumzustands. Könnten Sie bitte Ihre Frage etwas weiter entwickeln? –

Antwort

0

In this paper nutzen könnten, die Autoren verschiedene Experimente in einem simulierten und realen Version des invertierten Pendels mit der folgenden Belohnungsfunktion ausführen: enter image description here

Hier ist x der Zustandsvektor, der den aktuellen Winkel und die Winkelgeschwindigkeit darstellt, und u ist die Aktion.

Experimente zeigen, dass die Belohnungsfunktion mit den folgenden Algorithmen einigermaßen gut funktioniert: SARSA, LSPI, Erfahrungswiederholung SARSA und Erfahrungswiederholung Q-Learning.

Beachten Sie jedoch, dass Ihr Problem möglicherweise nicht (nur) mit der Belohnungsfunktion verbunden ist, da die Konvergenzgeschwindigkeit von vielen Faktoren beeinflusst werden kann, wie von @Matheus Portela in den Kommentaren vorgeschlagen.