Sie haben eine Richtlinie, die effektiv eine Wahrscheinlichkeitsverteilung von Aktionen für alle meine Zustände ist. Eine Wertfunktion bestimmt den besten Kurs von Aktionen, um die höchste Belohnung zu erreichen.Grundlegendes zu Richtlinien- und Wertfunktionen Verstärkung Lernen
So habe ich eine zufällige Politik. Ich bekomme die Wertfunktion. Ich aktualisiere meine Richtlinie mit einer neuen Verteilung entsprechend der Wertfunktion. Ich erhalte eine Wertfunktion dieser neuen aktualisierten Richtlinie und werte sie erneut aus.
Aus dieser Definition habe ich Probleme zu verstehen, wie Wert Iteration dann funktioniert und ich denke, es ist von einem Missverständnis, was eine Wertfunktion ist.
Ist eine Wertfunktion nicht der beste Ablauf von Aktionen, es ist nur eine Reihe von Aktionen, die eine Belohnung bestimmen? Sucht die Policy-Iteration einfach nach einer Wertfunktion, die eine höhere Belohnung als ihre aktuelle Belohnung liefert und dann sofort aktualisiert, was eine neue Verteilung von Aktionen für meine Zustände ergibt (eine neue Richtlinie) und dies iterativ für jeden einzelnen Status bis zur Konvergenz tut ?
In diesem Fall sucht Wert Iteration nach der einzigen bestmöglichen Aktion bei jedem Status in der Sequenz (im Gegensatz zu einem, der gerade besser ist)? Ich habe hier zu kämpfen, um zu verstehen, warum man nicht die Richtlinie aktualisieren?
Sind mein Verständnis von Politik und Wertfunktion usw. korrekt?
Vielen Dank!
Ich denke, mein Verständnis von Politik ist sicherlich falsch: Wenn eine Politik ist einfach eine Verteilung über alle möglichen Aktionen für meine Staaten, dann bin ich nicht ganz sicher, was "Aktualisierung" bedeutet. Wenn es einfach ist, die Verteilung zu aktualisieren, wie genau funktioniert die Wert-Iteration dann, wenn sie mit einer "schlechteren" Verteilung arbeitet, weil die Richtlinie anfänglich nicht zufällig ist, wenn sie initialisiert wird? Ich kann nicht verstehen, wie diese konvergieren und gleich gut sein würden?
Sie stellen mehrere Fragen in mehreren Posts, nicht eine einzige monolithische. – vin