PySpark: Kann kein Datenframe aus der Liste erstellen

Hallo Ich habe eine Liste von Tupeln, die eine Zeichenfolge und einen numpy float 64 Wert enthalten. Ich würde es gerne zu Spark Dataframe ändern. Aber ich bekomme Fehler. Die Liste und der Fehler sind unten aufgeführt.PySpark: Kann kein Datenframe aus der Liste erstellen

Dies ist mein Code:

schema = StructType([StructField("key", StringType(), True), StructField("value", DoubleType(), True)]) 

coef_df = spark.createDataFrame(coef_list, schema)

Quelle

2017-03-16 sjishan

Wie @ user6910411 schlägt Spark SQL (noch) nicht NumPy Typen unterstützen

Hier ist eine etwas einfachere Lösung für Sie (unter Einbeziehung der Kommentar als gut)

import numpy as np 

data = [ 
    (np.unicode('100912strategy_id'), np.float64(-2.1412)), 
    (np.unicode('10exchange_ud'), np.float64(-1.2412))] 

df = (sc.parallelize(data) 
    .map(lambda x: (str(x[0]), float(x[1]))) 
    .toDF(["key","value"])) 
df.show()

+-----------------+-------+ 
|    key| value| 
+-----------------+-------+ 
|100912strategy_id|-2.1412| 
| 10exchange_ud|-1.2412| 
+-----------------+-------+

Quelle

2017-03-16 17:34:13

PySpark: Kann kein Datenframe aus der Liste erstellen

Antwort

Verwandte Themen