1

Ich bin neu in Reinforcement Learning. Kürzlich habe ich versucht, ein Deep Q Network zu trainieren, um die CartPole-v0 des OpenAI-Studios zu lösen, bei der das Lösen eine durchschnittliche Punktzahl von mindestens 195.0 über 100 Episoden in Folge bedeutet.Ist Deep Q Learning zur Lösung der Cartpole-Aufgabe geeignet?

Ich verwende ein 2-schichtiges neuronales Netzwerk, Erfahrung Wiederholung mit dem Speicher mit 1 Million Erfahrungen, epsilon gierige Politik, RMSProp Optimierer und Huber Verlust-Funktion.

Mit dieser Einstellung wird die Lösung dieser Aufgabe nimmt mehr tausend Episoden (> 30k). Das Lernen ist manchmal auch ziemlich instabil. Also, ist es normal für Deep Q Networks zu oszillieren und so lange zu brauchen, um eine solche Aufgabe zu lernen? Welche anderen Alternativen (oder Verbesserungen an meinem DQN) können bessere Ergebnisse liefern?

+0

Hier finden Sie eine Anleitung finden, die wahrscheinlich für Ihre Zwecke nützlich sein kann. Das Tutorial verwendet OpenAI CartPole Problem, und sie verwenden ein neurales Netzwerk wie Sie: https://pythonprogramming.net/openai-cartpole-neural-network-example-machine-learning-tutorial/ –

+0

Vielen Dank, @PabloEM. Es gibt mir neue Einsichten. –

+1

Großartig. Im Allgemeinen denke ich, dass Deep Q Learning irgendwie übertrieben ist, um die Cartpole-Aufgabe zu lösen. –

Antwort

1

Welche anderen Alternativen (oder Verbesserungen an meinem DQN) können bessere Ergebnisse liefern?

nach meiner Erfahrung, Politik Gradienten arbeiten gut mit dem Cartpole. auch, sie sind ziemlich einfach zu implementieren (wenn Sie schielen, Politik Gradienten fast aussehen wie überwachtes Lernen).

ein guter Anfang: http://kvfrans.com/simple-algoritms-for-solving-cartpole/

Verwandte Themen