Ich habe ein aktuelles RDD Daten wie diesepyspark aufgeteilt Text mit id
DataRDD = [(0,u'A chunk of text'),(1,u'Test sentence check')]
mein Ziel ist so braucht diesen Text in Worte zu spalten, während id jenes Satzes hält
mein Ergebnis wie
sein würde[(0,u'A'),(0,u'chunk'),... ,(1,u'check')]
jetzt bin ich versuche zur Zeit mit Split()
result = DataRDD.flatmap(lambda (id,text):(id,text.split()))
zu verwenden flatmap
aber der Code funktioniert nicht, sollte ich Funktion geschrieben, um diesen Text anstelle von split() direkt zu teilen?