Spark RDD apend

In Spark, ich habe einen Datensatz als RDD geladen und gerne Streaming-Daten an ihn selten anfügen. Ich weiß, dass RDDs unveränderlich sind, weil es Locking vereinfacht usw. Sind die anderen Ansätze, statische und Streaming-Daten zusammen zu verarbeiten?Spark RDD apend

ähnliche Frage wurde vor gefragt: Spark : How to append to cached rdd?

Quelle

2016-12-24 Vortex

einen Blick auf http://spark.apache.org/streaming/ hat.

Mit Spark-Streaming erhalten Sie eine Datenstruktur, die eine Sammlung von RDDs darstellt, über die Sie iterieren können. Es kann auf eine Kafka-Warteschlange, ein Dateisystem usw. hören, um neue Daten zu finden, die in der nächsten RDD enthalten sein sollen.

Oder wenn Sie diese "Anhänge" nur selten ausführen, können Sie zwei RDDs mit demselben Schema verbinden, um eine neue kombinierte RDD zu erhalten.

Quelle

2016-12-24 05:04:22 Brian

Danke Brian. Spark Streaming scheint nahe zu sein, was ich wirklich will; eine verteilte, veränderbare Tabelle. Ich versuche, union op zu vermeiden, weil meine statischen Daten groß sind. – Vortex

Spark RDD apend

Antwort

Verwandte Themen