In Sutton's book on RL, unter Monte Carlo Politikbewertung erwähnt er auf Seite 111, dass note that the computational expense of estimating the value of a single state is independent of the number of states
. Da jedoch für Monte Carlo:Monte Carlo RL - Warum ist der Rechenaufwand für die Schätzung des Wertes eines einzelnen Zustands unabhängig von der Anzahl der Zustände?
Die durchschnittliche Rendite für einen Zustand berechnet sich aus, wenn der Staat zunächst bis zum Ende der Episode
Je mehr Staaten gibt es, desto wahrscheinlicher ist die angetroffen wird Ende der Episode dauert länger zu erreichen
Also was fehlt mir an dieser Aussage?
Danke! Ich weiß, dass es einen Datenaustausch gibt, aber die Frage wird dort selten beantwortet. Daher ist seine Aussage in dem Buch im Kontext des Vergleichs mit DP sinnvoll, wo die Schätzungen für Nachbarstaaten benötigt werden, bevor eine Aktualisierung auf den aktuellen Zustand erfolgen kann. –