Ich versuche, eine bestimmte Spalte aus einer RDD-Daten auszuwählen. Meine Daten sehen so aus:Auswählen einer Spalte in RDD
colA | colB
1 | cat,bat
2 | cat
3 | horse,elephant, mouse
Ich möchte ColB extrahieren, die unterschiedliche Länge hat. dabei habe ich versucht:
coldata = rdd.map(lambda x: x[1])
Das extrahiert nur cat,cat,horse
ich die extrahierten Daten werden wollen:
colB
cat,bat
cat
horse,elephant,mouse
ich die RDD erstellen, indem Sie folgendermaßen vorgehen:
sqlContext = SQLContext(sc)
data = sc.textFile("filename").map(lambda line: line.split(","))
Can Sie zeigen, wie RDD erstellt wird? –
Ich habe den Code zu meinem ursprünglichen Beitrag hinzugefügt. Vielen Dank. – Nivi
ok, und wie colA und colB getrennt sind? Ich nehme an, mit Komma ','? –