Gemäß AlphaGo Cheat Sheet verwendet AlphaGo Zero eine Folge aufeinanderfolgender Kartenkonfigurationen, um seinen Spielstatus zu codieren.AlphaGo Zero Board-Evaluierungsfunktion verwendet mehrere Zeitschritte als Eingabe ... Warum?
Theoretisch sind alle notwendigen Informationen im neuesten Zustand enthalten, und doch enthalten sie die vorherigen 7 Konfigurationen.
Warum haben sie sich dafür entschieden, so viel Komplexität zu injizieren?
Worauf hören sie?
"Das bedeutet, dass das Spiel von der derzeitigen Position des Board aus nicht vollständig beobachtbar ist." Können Sie das näher erläutern? Dies scheint nicht wahr zu sein. Btw danke für die Antwort Ich werde diese Frage für ein bisschen hängen lassen sehen, was ich sonst noch bekommen kann. –
Imran erzählte die ganze Geschichte. für gehen Sie die Wiederholungsregel ist Ko: https://senseis.xmp.net/?Ko, wenn Sie eine Go-Spiel-Position mit einem Ko sehen Sie nicht in der Lage zu bestimmen, ob legal ist, die ko zu nehmen, wenn Sie die letzten kennen Bewegungen werden Sie dazu in der Lage sein. Gleiches gilt für die Dreifache Wiederholungsregel in Schach und Shogi – MaMiFreak