Monte Carlo RL - Warum ist der Rechenaufwand für die Schätzung des Wertes eines einzelnen Zustands unabhängig von der Anzahl der Zustände?

In Sutton's book on RL, unter Monte Carlo Politikbewertung erwähnt er auf Seite 111, dass note that the computational expense of estimating the value of a single state is independent of the number of states. Da jedoch für Monte Carlo:Monte Carlo RL - Warum ist der Rechenaufwand für die Schätzung des Wertes eines einzelnen Zustands unabhängig von der Anzahl der Zustände?

Die durchschnittliche Rendite für einen Zustand berechnet sich aus, wenn der Staat zunächst bis zum Ende der Episode
Je mehr Staaten gibt es, desto wahrscheinlicher ist die angetroffen wird Ende der Episode dauert länger zu erreichen

Also was fehlt mir an dieser Aussage?

Quelle

2017-05-09 Quan Vuong

An important fact about Monte Carlo methods is that the estimates for each state are independent.

Wenn jeder Staat unabhängig berechnet wird, dann sollte es klar folgen, dass es keine Rolle spielt, wie viele verschiedene Zustände möglich sind, wenn Sie einen Zustand Wertschätzung für einen einzelnen Zustand sind zu bestimmen. Es ist weil dieser unabhängigen Natur, dass MC-Systeme nützlich sind.

Ich glaube, Sie werden mit der Tatsache verwechselt, dass große staatliche Systeme werden insgesamt länger zu berechnen (das gesamte System), aber da die Wahrscheinlichkeit zu gewinnen mit einer 17 nicht beeinflussen gewinnen mit einem 18 diese Staaten nicht voneinander abhängig.

edit: Ich denke, es gibt eine Statistik oder ML Stackoverflow-Seite, dass diese Frage besser auch gerichtet werden könnte.

Quelle

2017-05-09 20:14:04

Danke! Ich weiß, dass es einen Datenaustausch gibt, aber die Frage wird dort selten beantwortet. Daher ist seine Aussage in dem Buch im Kontext des Vergleichs mit DP sinnvoll, wo die Schätzungen für Nachbarstaaten benötigt werden, bevor eine Aktualisierung auf den aktuellen Zustand erfolgen kann. –

Monte Carlo RL - Warum ist der Rechenaufwand für die Schätzung des Wertes eines einzelnen Zustands unabhängig von der Anzahl der Zustände?

Antwort

Verwandte Themen