2017-12-03 8 views
0

Ich habe einen Datenrahmen in der folgenden Struktur:PySpark: Datenrahmen - Konvertieren Struct zu Array

root 
|-- index: long (nullable = true) 
|-- text: string (nullable = true) 
|-- topicDistribution: struct (nullable = true) 
| |-- type: long (nullable = true) 
| |-- values: array (nullable = true) 
| | |-- element: double (containsNull = true) 
|-- wiki_index: string (nullable = true) 

Ich brauche es zu ändern:

root 
|-- index: long (nullable = true) 
|-- text: string (nullable = true) 
|-- topicDistribution: array (nullable = true) 
| |-- element: double (containsNull = true) 
|-- wiki_index: string (nullable = true) 

Darf ich fragen, wie kann ich das tun?

Vielen Dank.

Antwort

3

Ich glaube, Sie suchen

df.withColumn("topicDistribution", col("topicDistribution").getField("values")) 
Verwandte Themen