Sie benötigen die RDD.union
Diese auf einem Schlüssel nicht beitreten. Union macht nicht wirklich selbst etwas, also ist es wenig Overhead. Beachten Sie, dass die kombinierte RDD über alle Partitionen der ursprünglichen RDDs verfügt. Daher möchten Sie möglicherweise nach der Vereinigung eine Koaleszenz durchführen.
val x = sc.parallelize(Seq((1, 3), (2, 4)))
val y = sc.parallelize(Seq((3, 5), (4, 7)))
val z = x.union(y)
z.collect
res0: Array[(Int, Int)] = Array((1,3), (2,4), (3,5), (4,7))
API
def++(other: RDD[T]): RDD[T]
Rückkehr die Vereinigung dieser RDD und eine andere.
def++ API
def union(other: RDD[T]): RDD[T]
Rückkehr die Vereinigung dieser RDD und eine andere. Alle identischen Elemente erscheinen mehrmals (verwenden Sie .distinct(), um sie zu eliminieren).
def union API
Was ist Ihre erwartete Ausgabe und was haben Sie versucht? – mtoto
3L 7L 5L 2L 432L 7123L 513L 1312L – Simon
ich diese RDD wollen, bedeutet zwei RDD einem RDD verschmelzen – Simon