2017-03-14 2 views
0

Ich habe eine RDD, die ich von einem Eingang wie folgt zu erstellen:pyspark: get Größe des zweiten Elements eines groupby auf rdd

0 1 
0 2 
1 2 
1 3 

ich ein groupBy wie folgt tun:

rdd2 = rdd1.groupBy(lambda x: x[0]) 

Jetzt würde RDD2 so etwas wie:

[(0,[1,2]),(1,[2,3])] 

meine Fragen ist, wie kann ich die Größe dieser Liste bekommen mit jedem Element verbunden?

Dank

Antwort

1

können Sie verwenden mapValues und len:

rdd2.mapValues(list).mapValues(len) 
Verwandte Themen