2017-05-09 1 views
0

In Sutton's book on RL, unter Monte Carlo Politikbewertung erwähnt er auf Seite 111, dass note that the computational expense of estimating the value of a single state is independent of the number of states. Da jedoch für Monte Carlo:Monte Carlo RL - Warum ist der Rechenaufwand für die Schätzung des Wertes eines einzelnen Zustands unabhängig von der Anzahl der Zustände?

  • Die durchschnittliche Rendite für einen Zustand berechnet sich aus, wenn der Staat zunächst bis zum Ende der Episode

  • Je mehr Staaten gibt es, desto wahrscheinlicher ist die angetroffen wird Ende der Episode dauert länger zu erreichen

Also was fehlt mir an dieser Aussage?

Antwort

1

An important fact about Monte Carlo methods is that the estimates for each state are independent.

Wenn jeder Staat unabhängig berechnet wird, dann sollte es klar folgen, dass es keine Rolle spielt, wie viele verschiedene Zustände möglich sind, wenn Sie einen Zustand Wertschätzung für einen einzelnen Zustand sind zu bestimmen. Es ist weil dieser unabhängigen Natur, dass MC-Systeme nützlich sind.

Ich glaube, Sie werden mit der Tatsache verwechselt, dass große staatliche Systeme werden insgesamt länger zu berechnen (das gesamte System), aber da die Wahrscheinlichkeit zu gewinnen mit einer 17 nicht beeinflussen gewinnen mit einem 18 diese Staaten nicht voneinander abhängig.

edit: Ich denke, es gibt eine Statistik oder ML Stackoverflow-Seite, dass diese Frage besser auch gerichtet werden könnte.

+0

Danke! Ich weiß, dass es einen Datenaustausch gibt, aber die Frage wird dort selten beantwortet. Daher ist seine Aussage in dem Buch im Kontext des Vergleichs mit DP sinnvoll, wo die Schätzungen für Nachbarstaaten benötigt werden, bevor eine Aktualisierung auf den aktuellen Zustand erfolgen kann. –

Verwandte Themen