In Apache Spark kann man mehrere RDDs effizient mit sparkContext.union()
Methode verbinden. Gibt es etwas Ähnliches, wenn jemand mehrere RDDs schneiden möchte? Ich habe in sparkContext Methoden gesucht und ich konnte nichts oder irgendwo anders finden. Eine Lösung könnte sein, die rdds zu vereinigen und dann die Duplikate zu holen, aber ich denke nicht, dass es so effizient sein könnte. Angenommen, ich habe folgendes Beispiel mit Schlüssel/Wert-Paar Sammlungen:Apache Spark - Kreuzung mehrerer RDDs
val rdd1 = sc.parallelize(Seq((1,1.0),(2,1.0)))
val rdd2 = sc.parallelize(Seq((1,2.0),(3,4.0),(3,1.0)))
Ich möchte eine neue Sammlung abzurufen, die folgende Elemente aufweist:
(1,2.0) (1,1.0)
Aber natürlich für mehrere RDDs und nicht nur zwei .
warum möchten Sie mehrere rdds schneiden? und auf welcher Grundlage? – Shankar
Ich denke jetzt ist meine Frage besser zu verstehen. –