2017-11-16 3 views
0

Wenn mein Baum tief genug ist, dass Endknoten ausgewählt werden, hätte ich angenommen, dass ich nur eine Null-Bewegung "Playout" davon ausführen und die Ergebnisse zurück propagieren sollte, aber die IEEE survey of MCTS methods zeigt diese Auswahl an Schritt sollte den "dringendsten erweiterbaren Knoten" finden und ich kann nirgendwo anders Gegenbeispiele finden. Soll ich sie irgendwie ausschließen? Was ist hier richtig?Wie mit Endknoten in Monte Carlo Tree Search umgehen?

Antwort

1

Wenn Sie in der Auswahlphase tatsächlich einen Endknoten erreichen, überspringen Sie die Erweiterung und die Wiedergabe (sie sind nicht mehr sinnvoll) und leiten den Wert dieses Endknotens geradeaus.

Aus dem Papier, das Sie verbunden ist, ist dies von Seite nicht klar 6, aber es ist in diesem Pseudo-Code in Algorithmus 2 auf Seite 9 klar, die TreePolicy() Funktion einen Endknoten v am Ende zurückkehrt. Wenn der Zustand dieser Knoten wird dann in die DefaultPolicy() Funktion übergeben, diese Funktion wird direkt die Belohnung zurückgeben (die Bedingung der while-Schleife dieser Funktion wird nie erfüllt sein).

Es macht auch Sinn, dass Sie das tun möchten, wenn Sie ein gutes intuitives Verständnis des Algorithmus haben und wollen, dass er bei unendlicher Verarbeitungszeit optimale Schätzungen der Werte garantiert. Mit einer unendlichen Verarbeitungszeit (unendliche Anzahl von Simulationen) möchten Sie Werte aus den "besten" Endzuständen unendlich häufig sichern, so dass die gemittelten Werte aus Sicherungen in Knoten, die näher am Stamm liegen, auch diesen Werten entsprechen beste Blattknotenwerte im Limit.

Verwandte Themen