Ist die folgende Aussage wahr? Der Sicherungsspeicher (relationale Datenbank, NoSQL, JSON-Dateien), der in Spark verwendet wird, ist nicht sehr relevant, da Spark alle Daten in den Speicher lädt und anschließend Analysen durchführt.Ist der Hintergrundspeicher von Spark wirklich wichtig?
Ich bin zu dieser Schlussfolgerung gekommen, nachdem ich die Spark-, SparkSQL- und GraphX-Dokumentation online unter spark.apache.org gelesen habe. Das allgemeine Muster, das ich sehe, besteht darin, zuerst die Daten zu laden, dann zu definieren, was Sie machen wollen (ML, Graphx, Map) und dann auszuführen. Ist meine Aussage wahr und wenn nicht warum? Vielen Dank.