Ich implementiere derzeit den tiefen Doppel-Q-Lernalgorithmus in TensorFlow. Ich habe einen erfahrenen Replay-Puffer basierend auf NumPy-Arrays implementiert. Einige Leistungsanalysen zeigen jedoch, dass das Einspeisen der Daten von NumPy-Arrays in das Diagramm mit feed_dict sehr ineffizient ist. Darauf wird auch in der Dokumentation https://www.tensorflow.org/performance/performance_guide hingewiesen.Effiziente Dateneingabe für Verstärkungslernalgorithmen
Hat jemand einen Vorschlag, wie die Fütterung effizienter durchgeführt werden kann? Bei statischen Datensätzen kann die Einspeisung über Eingabepipelines, wie z. B. Aufzeichnungsleser, erfolgen. Erleben Sie den Replay-Puffer jedoch im Laufe der Zeit, was diese Art der Fütterung schwieriger macht.
Alle Antworten werden sehr geschätzt, danke!