Ich bin völlig neu in Pysparks und RDD. Ich versuche zu verstehen, wie rdd funktioniert und ich habe Probleme beim Zugriff auf einen Teil der Daten in einem RDD. Ich möchte ein paar Spalten aus einer vorhandenen RDD auswählen und eine neue RDD erstellen.Erstellen einer neuen RDD aus einer anderen RDD in Python
Ein Beispiel unter:
user_rdd = [Row(id=u'1', first_name=u'Steve', last_name=u'Kent', email=u'[email protected]'),Row(id=u'2', first_name=u'Margaret', last_name=u'Peace', email=u'[email protected]')]
display(user_rdd)
| email | first_name | id | last_name
| [email protected] | Steve | 1 | Kent
| [email protected] | Margaret | 2 | Peace
Wie 2 Spalten auswählen aus user_rdd und eine neue rdd wie unten schaffen?
| id | first_name | last_name | full_name
| 1 | Steve | Kent | Steve Kent
| 2 | Margaret | Peace | Margaret Peace