2017-04-20 1 views
-1

Ich habe die unten nach einem Split mit "#" einer Datei,Mehrere Split und Karte in Spark-

res64: Array[(String, String)] = Array((1,Animation|Children's|Comedy), (2,Adventure|Children's|Fantasy)) 

Wie einzigartiges Paar (mit deutlich) zu bekommen wie (1, Animation),(1,Children's), etc .. für jeden key (Film-ID hier) wie 1 in der ?

Antwort

0

kann so einfach sein wie

rdd.mapValues(x => x.split('|'))\ 
.flatMapValues(x=>x)\ 
.distinct()\ 
.collect()