2017-05-08 7 views
0

Obwohl ich verwalten kann die Beispiele und meinen eigenen Code bekommen zu laufen, ich bin mehr gespannt auf die reale Semantik/Erwartungen hinter OpenAI Fitness-Studio-API, insbesondere Env.reset()OpenAI Gym: Wann ist Reset erforderlich?

Wenn Reset erwartet/erforderlich? Am Ende jeder Episode? Oder erst nach dem Erstellen einer Umgebung?

Ich denke eher, dass es vor jeder Episode Sinn macht, aber ich konnte das nicht explizit lesen!

Antwort

1

Normalerweise verwenden Sie nach einer ganzen Episode zurückgesetzt. Das könnte also der Fall sein, nachdem Sie im mdp einen Endstatus erreicht haben oder nachdem Sie die von Ihnen festgelegte maximale Anzahl an Zeitschritten erreicht haben. Ich setze es normalerweise auch gleich zu Beginn des Trainings zurück.

Wenn Sie also Ihren Ausgangszustand 'A' haben und den Status 'Z' erreichen möchten, würden Sie Ihre Zeitschritte von 'A' -> 'B' -> 'C' laufen lassen ..., Wenn Sie den Terminal-Status 'Z' erreichen, starten Sie eine neue Episode mit einem Reset, der Sie zurück zu 'A' bringt.

for episode in range(iterations): 
    state = env.reset() // first state 
    for time_step in range(1000): //max amount of iterations 
     action = take_action(state) 
     observation, reward, done, _ = env.step(action) 
     if done: 
      break // takes you to the next episode where the environment is reset 
Verwandte Themen