Ich habe Probleme, eine gute Belohnung Funktion für das Pendel Problem, die Funktion, die ich verwende: -x ** 2 + - 0,25 * (xdot ** 2) , die die quadratische ist Fehler von oben. wobei x die aktuelle Position des Pendels und x die Winkelgeschwindigkeit darstellt.Verstärkung lernen, Pendel Python
es dauert eine Menge Zeit mit dieser Funktion und manchmal funktioniert nicht. hat jemand andere Vorschläge? Ich habe in Google gesucht, aber nichts gefunden i
Ich denke, Sie sollten dies lieber an Kreuz-validierte oder sogar Datascience-Stack-Communities posten; Überlauf ist technischen Aspekten gewidmet, dh Codierung, nicht Methodik. –
Viele Dinge können die Konvergenzgeschwindigkeit und ihre Effektivität beeinflussen, insbesondere den Lernalgorithmus (Q-Learning, SARSA, Deep Q-learning), die Lernrate und die Größe des Raumzustands. Könnten Sie bitte Ihre Frage etwas weiter entwickeln? –