Ich muss eine rdd mit zwei Reihen, inot eine rdd mit einer Reihe umwandeln. Beispiel:Erzeuge eine Reihe von vielen Reihen in eine RDD
rdd1=a
b
ich brauche:
rdd2=(a,b)
Wie kann ich diesen Schritt in pyspark? Die Frage könnte dumm sein, aber ich bin neu in Funken. "UPDATE" Dies ist zur Durchführung von Cartesian zwischen Rdd2 und Rdd3, beginnend von Rdd1. Wie:
rdd3:(k,l)
(c,g)
(f,x)
Ich möchte diese Ausgabe:
rddOut:[(a,b),(k,l)]
[(a,b),(c,g)]
[(a,b),(f,x)]
Vielen Dank im Voraus
Das Problem ist, dass ich eine Maßnahme Abstand zwischen zwei identischen rdds (eine kartesische zwischen den beiden) durchführen muss, aber das Ergebnis ist zu groß, weil ich mit großen Datenmengen arbeite. Also die Idee war, die erste Zeile von rdd1 zu nehmen, mit allen rdd2 Cartesian durchzuführen (das ist identisch mit rdd1) und dann eine Ausgabedatei auszugeben. Entferne die erste Zeile von rdd1, nimm die neue zuerst, führe cartesian mit rdd2 aus und erzeuge eine zweite Datei usw. –