2016-07-07 7 views

Antwort

3

Funke nicht als dauerhafte Speicherung vorgesehen ist, können Sie HDFS, Elasticsearch oder einen anderen ‚Spark-kompatibel‘ Cluster-Speicher für diese.

Spark liest Daten aus einem Clusterspeicher, arbeitet in random access memory RAM (und optional Caching von Temp-Ergebnissen), schreibt dann normalerweise Ergebnisse zurück zum Clusterspeicher, weil es zu viele Ergebnisse für die lokale Festplatte geben kann.

Beispiel: Read from HDFS -> Spark ... RDD ... -> Store results in HDFS

Sie zwischen langsamen Speicher wie Festplatten (Disk, SSD) und schnell flüchtigen Speicher wie RAM unterscheiden. Die Stärke von Spark ist die Nutzung von Direktzugriffsspeicher (RAM).

Sie können caching verwenden, für eine temporäre Speicherung finden Sie unter: (Why) do we need to call cache or persist on a RDD

+0

Ich verstehe aber Datenbank nicht anpassen Objekt speichern ... So ist die beste Lösung Verwendung hdfs sein, Daten in der Scheibe haben und eine andere Datenbank im Speicher wie Tachyon oder Redis, um die Geschwindigkeit zu nutzen, wenn Funken Daten lesen und Objektformat nicht behalten? – TiGi

+0

HDFS funktioniert gut mit Spark, oft tun Sie HDFS -> Spark -> HDFS, die Sache ist, Sie müssen etwas mit Spark kompatibel verwenden, und es sollte große Mengen für Daten nehmen können, aber vielleicht ist Ihre Spark-Ausgabe nicht so groß wie die Eingabe, so ist dies nicht immer eine Voraussetzung. –

Verwandte Themen