q-learning

1Hitze

1Antwort

Javascript - Verhindern von Chrome von der Seite während der langen Schleife zu töten

Chrome tötet die Seite in der Mitte meines Connect-vier-Browser-Spiels, wenn es ordnungsgemäß ausgeführt wird. Das Spiel ist ein Spieler gegen Computer Setup und das Spiel selbst läuft einwandfrei und

3Hitze

3Antwort

Bewehrungslernen vs. Dynamische Programmierung

Ist das Verstärkungslernen (Q-Lernen) mithilfe der Nachschlagetabelle (anstelle der Funktionsapproximation) gleichbedeutend mit der dynamischen Programmierung?

0Hitze

1Antwort

Wie normalisiere ich Gewichte q-lernen mit linearer Funktionsapproximation

Ich entwickle ein einfaches Spielprogramm, um q-learning mit linearer Funktionsannäherung zu zeigen. screen shot In diesem Spiel gibt es unzählige Staaten. Ich muss viele Faktoren wie die Position des

1Hitze

1Antwort

Wie zu implementieren Deep Q-Learning Gradientenabstieg

Also ich versuche, Deep Q-Learning-Algorithmus von Google DeepMind erstellt zu implementieren, und ich denke, ich habe einen ziemlich guten Hang davon jetzt. Aber es gibt immer noch eine (ziemlich wic

1Hitze

1Antwort

Q-Learning mit Funktionsannäherung, wo jeder Zustand nicht denselben Satz von Aktionen hat

Ich verwende Q-Learning mit Funktionsapproximation auf ein Problem, bei dem jeder Zustand nicht den gleichen Satz von Aktionen hat. Es wenn ich die Berechnung Ziel Ziel = R (s, a, s ') + (max_a' * Q (

1Hitze

1Antwort

Kann Q-Learning-Algorithmus übertrainiert werden?

Es wurde bewiesen, dass der Q-Learning-Algorithmus zu den Qs der optimalen Richtlinie konvergiert, die einzigartig sind. Ist es richtig zu folgern, dass der Q-Learning-Algorithmus nicht übertrainiert

2Hitze

1Antwort

Wie implementiert man q-learning in R?

Ich lerne über q-Learning und fand eine Wikipedia-Post und diese website. Nach den Tutorials und Pseudo-Code schrieb ich so viel in R #q-learning example #http://mnemstudio.org/path-finding-q-learnin

2Hitze

1Antwort

Ausbildung nur ein Ausgang eines Netzwerks in Keras

Ich habe ein Netzwerk in Keras mit vielen Ausgängen, aber meine Trainingsdaten liefern nur Informationen für einen einzelnen Ausgang zu einem Zeitpunkt. meine Methode für die Ausbildung Im Moment hat

0Hitze

1Antwort

Q-Wert für den absorbierenden Zustand

\begin{equation} Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha (R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t)) \end{equation} In obiger Gleichung ist es ein Begriff max(Q_t(s_{t+1},a)) Je

-3Hitze

1Antwort

Was ist tiefes q-Lernen

Was ist tiefes q-Lernen? Ist es dasselbe wie Lernen mit Tiefenverstärkung? Wie geht es um tiefe neuronale Netze? Wie in was muss zu den tiefen neuralen Netzen hinzugefügt werden, damit es tiefes q-lea