AlphaGo Zero Board-Evaluierungsfunktion verwendet mehrere Zeitschritte als Eingabe ... Warum?

Gemäß AlphaGo Cheat Sheet verwendet AlphaGo Zero eine Folge aufeinanderfolgender Kartenkonfigurationen, um seinen Spielstatus zu codieren.AlphaGo Zero Board-Evaluierungsfunktion verwendet mehrere Zeitschritte als Eingabe ... Warum?

Theoretisch sind alle notwendigen Informationen im neuesten Zustand enthalten, und doch enthalten sie die vorherigen 7 Konfigurationen.

Warum haben sie sich dafür entschieden, so viel Komplexität zu injizieren?

Worauf hören sie?

AlphaGoZero

Quelle

2017-12-15 T. Scharf

Der einzige Grund ist, weil in allen Spielen - Go, Schach und Shogi - eine Regel Wiederholung ist. Das bedeutet, dass das Spiel von der aktuellen Position des Board aus nicht vollständig beobachtbar ist. Mit anderen Worten, es kann zwei identische Positionen mit zwei sehr unterschiedlichen Bewertungen geben. Zum Beispiel kann es in einer Go-Position eine Gewinnbewegung geben, aber in einer identischen Go-Position ist diese Bewegung entweder illegal oder eine der nächsten Bewegungen in der Möchtegern-Gewinn-Fortsetzung erzeugt eine illegale Position.

Sie könnten versuchen, nur die aktuelle Position der Karte einzugeben und Wiederholungen nur im Baum zu bearbeiten. Aber ich denke, dass dies schwächer wäre, weil die Bewertungsfunktion in einigen Fällen falsch wäre, was zu einem Horizont-Effekt führen würde, wenn dieser Zweig des Baums nicht tief genug erforscht worden wäre, um das Problem zu korrigieren.

Quelle

2017-12-15 22:11:56 Imran

"Das bedeutet, dass das Spiel von der derzeitigen Position des Board aus nicht vollständig beobachtbar ist." Können Sie das näher erläutern? Dies scheint nicht wahr zu sein. Btw danke für die Antwort Ich werde diese Frage für ein bisschen hängen lassen sehen, was ich sonst noch bekommen kann. –

Imran erzählte die ganze Geschichte. für gehen Sie die Wiederholungsregel ist Ko: https://senseis.xmp.net/?Ko, wenn Sie eine Go-Spiel-Position mit einem Ko sehen Sie nicht in der Lage zu bestimmen, ob legal ist, die ko zu nehmen, wenn Sie die letzten kennen Bewegungen werden Sie dazu in der Lage sein. Gleiches gilt für die Dreifache Wiederholungsregel in Schach und Shogi – MaMiFreak

AlphaGo Zero Board-Evaluierungsfunktion verwendet mehrere Zeitschritte als Eingabe ... Warum?

Antwort

Verwandte Themen