Die Actor Mimic Papier spricht über eine Aktion Maskierungsverfahren zu implementieren. Ich zitiereWie implementiert man Action Masking?
Während ein bestimmtes Spiel spielen, wir AMN Aktion Ausgänge maskieren, die für dieses Spiel nicht gültig sind und nehmen Sie die softmax nur über die Teilmenge der gültigen Aktionen
Hat jemand eine Idee, Wie kann diese Aktionsmaskierung in Tensorflow implementiert werden? Wie würde man eine softmax nur über eine bestimmte Teilmenge von Aktionen nehmen?