2016-12-24 7 views
0

In Spark, ich habe einen Datensatz als RDD geladen und gerne Streaming-Daten an ihn selten anfügen. Ich weiß, dass RDDs unveränderlich sind, weil es Locking vereinfacht usw. Sind die anderen Ansätze, statische und Streaming-Daten zusammen zu verarbeiten?Spark RDD apend

ähnliche Frage wurde vor gefragt: Spark : How to append to cached rdd?

Antwort

1

einen Blick auf http://spark.apache.org/streaming/ hat.

Mit Spark-Streaming erhalten Sie eine Datenstruktur, die eine Sammlung von RDDs darstellt, über die Sie iterieren können. Es kann auf eine Kafka-Warteschlange, ein Dateisystem usw. hören, um neue Daten zu finden, die in der nächsten RDD enthalten sein sollen.

Oder wenn Sie diese "Anhänge" nur selten ausführen, können Sie zwei RDDs mit demselben Schema verbinden, um eine neue kombinierte RDD zu erhalten.

+0

Danke Brian. Spark Streaming scheint nahe zu sein, was ich wirklich will; eine verteilte, veränderbare Tabelle. Ich versuche, union op zu vermeiden, weil meine statischen Daten groß sind. – Vortex