2016-07-12 4 views

Antwort

0

Ein Terminal Zustand nicht erforderlich ist, aber es ist nützlich und ist nur für die Strafe nicht verwendet.

Um Pong als Beispiel zu nehmen, wird der Terminal-Status ausgelöst, wenn ein Spieler Punkte erzielt oder zulässt. Es ist bestrafungsneutral. Der Punkt des Endzustandes ist hier, weil nach dem Scoring der Spielzustand zurückgesetzt wird, werden der Ball und die Paddel zurück zu den Startpositionen bewegt. Dies bedeutet, dass keine Verbindung zwischen dem vorherigen Zustand (dem Terminal-Zustand) und dem nächsten Zustand besteht. Wenn wir die Belohnung für irgendeinen Nicht-Endzustand berechnen, verwenden wir die Belohnung in diesem Zustand plus die Q-Funktionen, die für die zukünftige Belohnung erwartet werden. In einem Endstadium gibt es keine zukünftige Belohnung, also kannst du einfach die Belohnung aus dem aktuellen Status verwenden.

Der Vorteil davon ist, dass es das Lernen beim Lernen massiv reduziert. Wie gesagt, du brauchst keinen Terminal-Status, aber wenn du keinen hast, solltest du deinen zukünftigen Bonus-Rabatt etwas niedriger als den Standard-Preis von 0,99 einstellen, weil auf dieser Ebene die meisten Belohnungen irgendwann zusammenkommen werden.

Hoffe, das hilft.

+0

danke @DanielSlater für Ihre Antwort. Ich habe den Future-Belohnung-Rabatt bereits auf 0,9 gesenkt, aber ich werde mehr damit herumspielen, um zu sehen, was passiert. Eine andere Frage: Muss die Belohnung erhöht werden, oder könnte ich sie belohnen, z. immer mit 1 Punkt, wenn es ein Ziel erreicht, dann ein neues Ziel senden, und wenn es wieder dieses Ziel erreicht, geben Sie wieder nur 1 Punkt, nicht 2 Punkte? Oder muss ich die Belohnung 0,1,2,3 erhöhen ... und so weiter? –

+0

@floboticsrobotics Belohnung muss nicht erhöht werden. Aber Sie möchten vielleicht, dass einige Belohnungen größer sind als andere. Bei der Belohnung handelt es sich um den relativen Wert, den der Agent an verschiedene Status anhängen soll. Nach dem, was Sie sagen, möchten Sie, dass Ihr Agent nacheinander zu jedem Ziel geht, also kann 1 für jeden ausreichend sein (obwohl nur das Testen Ihnen wirklich sagen kann). –

+0

danke viel, ich werde testen –

Verwandte Themen