Ich habe eine einfache Version von Curve Fever auch bekannt als "Achtung Die Kurve" gemacht. Ich möchte, dass die Maschine herausfindet, wie man das Spiel optimal spielt. Ich habe ein vorhandenes DQN aus einigen Atari-Spielbeispielen, die mit dem Tensorflow von Google erstellt wurden, kopiert und leicht modifiziert.Belohnungsfunktion zum lernen Curve Fever Spiel mit DQN
Ich tendiere dazu, eine angemessene Belohnungsfunktion herauszufinden. Derzeit verwende ich diese Belohnung Setup:
- 0,1 für jeden Rahmen ist es nicht Absturz
- -500 für jeden Crash
Ist das der richtige Ansatz? Muss ich die Werte optimieren? Oder brauche ich einen ganz anderen Ansatz?
Haben Sie es geschafft, dass der DQN funktioniert? – ericwenn
Ja, ich habe das Scoring wie unten beschrieben implementiert. –
Also -1 zum Sterben, +1 zum Töten. Haben Sie einen kleinen konstanten Wert zum Überleben verwendet? – ericwenn