Ich gehe durch die Dokumentation pySpark 1.6.2, um meine Daten in einen einzigen Datenrahmen zusammenzuführen.Zusammenführen von Listen in einem einzigen pySpark Datenrahmen
Ich habe eine Liste von 19 Einzelteilen (Listenname: Größen):
[9, 78, 13, 3, 57, 60, 66, 32, 24, 1, 2, 15, 2, 2, 76, 79, 100, 73, 4]
und eine 2D-Liste mit 19 nicht gleicher Länge Unterlisten (Listenname: data):
[[a,b,c],[d,e,f,g,h,i,j].......[x,y,z,a,f]]
I Ich versuche, einen Datenrahmen zu erstellen, der wie folgt aussieht:
Aber ich kann einen Weg nicht finden, das zu tun.
Ich habe bereits durch die Liste iteriert und ich könnte die beiden Spalten nach jeder Iteration anhängen. Aber ich finde es schwierig, einen Weg zu finden, einen Datenrahmen zu erstellen und ihn Schritt für Schritt zu füllen.
Dies ist mein Code:
schema = StructType([StructField("name", StringType(), True), StructField("size", IntegerType(), True)])
dataframe = sqlContext.createDataFrame([],schema)
for i in range(len(data)):
sizes.append(len(data[i]))
t = sqlContext.DataFrame([[data[i], sizes[i]]],
columns=['name', 'size'])
dataframe = dataframe.append(t, ignore_index=True)
dataframe.show()
aber es gibt mir dies:
+----+----+
|name|size|
+----+----+
+----+----+
vielen dank! Es funktioniert perfekt – Kratos