2016-07-01 10 views
0

Während ein neuronales Netz verwenden, um Generalisierung in hohen Zustandsräumen zu erhalten, was sind die Eingabeeinheiten?Verstärkung lernen: Neuronales Netz

Zum Beispiel, wenn der Zustandsvektor 1-dimensional ist, sagen wir die Position auf der realen Achse..gibt es nur eine Eingabeeinheit? (mit separatem Netzwerk für jede Aktion)

Antwort

0

Ja, zumindest wenn Sie einen Algorithmus ähnlich wie Q-Learning oder Sarsa verwenden, wo der Funktionsapproximator eine Q-Funktion lernen sollte Q(s,a). In Ihrem Fall, wenn Sie ein neuronales Netzwerk pro Aktion verwenden, muss das Netzwerk die Funktion Q(s) approximieren. Und wenn der Zustand zusätzlich Dimensionalität Eins hat, benötigt das Netzwerk nur ein Eingangsneuron.

+0

Was, wenn wir das gleiche neuronale Netz wollen, wird jeder Staat seine eigene Aktion haben? aber wenn bestimmte Aktionen nur in bestimmten Zuständen möglich sind, was passiert? Das Netzwerk ist nicht mehr vollständig verbunden? –

+0

Ich denke, die einfachste Lösung besteht darin, ein vollständig verbundenes Netzwerk zu haben, und wenn eine Kombination von Zustandsaktionen nicht möglich ist, z. B. s0 und a2, nähert sich das Netzwerk einfach Q (s0, a2) = 0 an (vorausgesetzt, das erste Q ist Null und Belohnungen sind möglich). Ich meine, die Politik wählt niemals die Aktion a2 im Zustand s0. Vielleicht, wie Sie vorschlagen, kann eine Ad-hoc-Netzwerkarchitektur helfen, aber ich bin mir nicht sicher. –

+1

danke für Ihre Hilfe –

Verwandte Themen