Ich habe die folgenden RDD enthält Sätze von Elementen, die ich nach Artikel Ähnlichkeit gruppieren möchte (Elemente in der gleichen Gruppe gelten als ähnlich. Ähnlichkeit ist transitiv und alle Elemente in Mengen, die atleast haben ein gemeinsames Element ist auch ähnlich)Reduzieren Spark RDD, um mehrere Werte zurückzugeben
Eingang RDD betrachtet:
Set(w1, w2)
Set(w1, w2, w3, w4)
Set(w5, w2, w6)
Set(w7, w8, w9)
Set(w10, w5, w8) --> All the first 5 set elements are similar as each of the sets have atleast one common item
Set(w11, w12, w13)
ich die oben RDD möchte
Set(w1, w2, w3, w4, w5, w6, w7, w8, w9, w10)
Set(w11, w12, w13)
Jede sugge zu reduziert werden Wie könnte ich das machen? Ich kann etwas wie unten nicht ausführen, wo ich ignorieren könnte, wenn ich zwei Sätze reduziere, wenn sie keine gemeinsamen Elemente enthalten:
Danke.
Ausgezeichnet. Vielen Dank. Ich habe Sparks Graphx-Bibliothek nie erforscht und es ist Zeit, dass ich es mache. – soontobeared