Theoretische Frage hier. Ich verstehe, dass Funken + EMR ein guter Weg ist, wenn man mit Datensätzen arbeitet, die nicht in den Speicher einer einzelnen Maschine passen.Deep Learning auf massiven Datensätzen
Allerdings würde ich auch Tensorflow anstelle von Funken ml Lib-Algorithmen verwenden, um tiefes Lernen auf diesen großen Datensätzen durchzuführen.
Aus meiner Forschung sehe ich, dass ich möglicherweise eine Kombination von pyspark, elephas und EMR verwenden könnte, um dies zu erreichen. Alternativ gibt es BigDL und Sparkdl.
Gehe ich in die falsche Richtung? Was ist Best Practice für Deep Learning auf Daten, die nicht in den Speicher passen? Soll ich stattdessen Online-Lernen oder Batch-Training verwenden? This post scheint zu sagen, dass "die meisten High-Performance-Deep-Learning-Implementierungen sind nur Single-Node"
Jede Hilfe, um mich in die richtige Richtung zu zeigen würde sehr geschätzt werden.
Ist [Amazon MXNet] (https://aws.amazon.com/mxnet/) etwas, das für das interessant sein könnte, was Sie erreichen möchten? –