Ich habe ein 500 * 500 Raster mit 7 verschiedenen Strafwerten. Ich muss einen RL-Agenten erstellen, dessen Aktionsraum 11 Aktionen enthält. (Links, Rechts, Hoch, Runter, 4 diagonale Richtungen, Geschwindigkeit, Geschwindigkeit und Geschwindigkeit). Wie kann ich dieses Problem lösen? Die Wahrscheinlichkeit der 'Aktion durchgeführt', die gewählt wurde, ist 0,8. Andernfalls wird eine zufällige Aktion ausgewählt. Außerdem können sich die Strafwerte dynamisch ändern.Verstärkung Lernen in dynamischer Umgebung mit großem Status-Aktionsraum
Antwort
Werfen Sie einen Blick auf dieses Kapitel von Sutton incompletideas.net/sutton/book/ebook/node15.html, insbesondere seine Experimente in späteren Abschnitten. Ihr Problem scheint dem N-Armed-Banditen ähnlich zu sein, da jeder Arm eine normale Belohnungsverteilung liefert. Während sich dieses Kapitel hauptsächlich auf die Exploration konzentriert, gilt das Problem.
Eine andere Möglichkeit, es zu betrachten, ist, wenn Ihr Zustand wirklich eine normale Verteilung der Strafen zurückgibt, müssen Sie die Domäne ausreichend erkunden, um den Mittelwert des Zustands, Aktion Tupel zu erhalten. Der Mittelwert in diesen Fällen ist Q *, wodurch Sie die optimale Richtlinie erhalten.
Als Folge, wenn der Zustandsraum zu groß oder kontinuierlich ist, kann es sich lohnen, die Verallgemeinerung mit einem Funktionsapproximator zu untersuchen. Während die gleichen Konvergenzregeln gelten, gibt es Fälle, in denen Funktionsapproximationen zu Problemen führen. Ich würde sagen, dass dies jedoch den Rahmen dieser Diskussion sprengen würde.
- 1. Verstärkung lernen: Neuronales Netz
- 2. Überwachtes Lernen, (ii) unüberwachtes Lernen, (iii) Verstärkung lernen
- 3. Feedback oder Verstärkung beim maschinellen Lernen verwenden?
- 4. Grundlegendes zu Richtlinien- und Wertfunktionen Verstärkung Lernen
- 5. Pybrain Verstärkung lernen; Dimension des Zustandes
- 6. Einfache Schnittstelle für das Lernen der Verstärkung
- 7. Wofür steht ph für Verstärkung Lernen
- 8. Direkt/indirekt und überwacht/unbeaufsichtigt/Verstärkung Lernen
- 9. Verstärkung in C# lernt
- 10. Log Schmieden Verstärkung Fix
- 11. Was ist Aktion und Belohnung in einem neuronalen Netzwerk, das Gewichte lernt durch Verstärkung Lernen
- 12. PHP-Speicherfehler mit großem Array
- 13. CoreAnimation ruckartig mit großem Fenster
- 14. StaticLayout OutOfMemoryError mit großem Text
- 15. Problem mit großem Speicher in C#
- 16. Bitmap ist in großem Gerät mit Bildansicht
- 17. Open Redirect Verstärkung Problem in C#
- 18. hinzufügen Klassenelemente mit großem Schluck html
- 19. Sympy: Lambdify-Funktion mit großem Array-Eingang
- 20. Verarbeitung von Protokollen/Transaktionen mit großem Volumen
- 21. jQuery Autocomplete mit großem Array (9500) Leistung
- 22. C# in Linux-Umgebung
- 23. Lernen PostgreSQL
- 24. Quicksort arbeitet nicht mit großem Array
- 25. Lange Verzögerung bei $ rootscope $ $ mit großem Objekt
- 26. Cassandra: Tabellendesign mit Zeitstempel und großem Dataset
- 27. Ich erhalte Malloc Fehler mit großem Schluck
- 28. UITableViewCell mit großem Bild ist nicht flüssig
- 29. Blackberry - einfache Zeile BasicEditField mit großem Text
- 30. Aborted Core nur mit großem String gedumpt
Was meinen Sie, wenn sich die Strafwerte dynamisch ändern? Ist es etwas, wo Zustand 1 einige Verteilungen mit einem Mittelwert von x zurückgeben könnte? oder ist es völlig einheitlich? Sind die dynamischen Strafwerte, die Sie gerade behandeln, Belohnungsformen für Sie? –
Mit dynamischer Änderung, ich nehme an, in einem Fall, den Zustand 1 erreichend, gibt es eine Strafe von 4. In anderen Fällen kann das Erreichen von Zustand 1 eine Strafe von 5 ergeben. Sie können es als Zustand 1 mit gezogener Strafe nehmen aus einer normalen Verteilung. Dies gilt für jeden Staat. –