Keras/TF: Zeit Distributed CNN + LSTM für visuelle Erkennung
Ich versuche, das Modell aus dem Artikel (https://arxiv.org/abs/1411.4389), die im Wesentlichen besteht aus zeitlich verteilt CNNs gefolgt von einer Folge von LSTMs mit der Verwendung von Keras zu implementieren TF.
Aber ich habe ein Problem, versuchen, wenn ich die TimeDirstibuted
Funktion nur meine Faltungs & Pooling Schicht für enthalten sollte, um herauszufinden, oder auch für die LSTMs?
Gibt es eine Möglichkeit, die CNN-Schichten parallel zu betreiben (Basierend auf der Anzahl der Frames in der Sequenz, die ich verarbeiten möchte und basierend auf der Anzahl der Kerne, die ich habe)?
Und zuletzt angenommen, dass jeder Eintrag besteht aus "n" Frames (in der Reihenfolge), wobei n auf der Grundlage der aktuellen Dateneingabe variiert, was ist die am besten geeignete Eingabe Dimension? und wäre "n" die Losgröße? Gibt es eine Möglichkeit, die Anzahl der CNNs in // auf beispielsweise 4 zu beschränken (so dass Sie nach 4 Frames eine Ausgabe Y erhalten)?
PS: Die Eingänge sind kleine Videos (dh eine Folge von Frames)
PS: Der Ausgang Dimension auf meine Frage irrelevant ist, so dass es hier nicht diskutiert wird
Danke