Ich versuche, ein PipelinedRDD in Pyspark in einen Datenrahmen zu konvertieren. Dies ist der Code-Schnipsel:PipelinedRDD in Datenframe konvertieren
newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row),))) df = newRDD.toDF()
Wenn ich den Code allerdings laufen, erhalte ich diese Fehlermeldung:
'list' object has no attribute 'encode'
ich mehrere andere Kombinationen ausprobiert habe, wie es zu einer Umwandlung Pandas Datenrahmen mit:
newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row),))) df = newRDD.toPandas()
Aber dann habe ich en d bis diese Fehler zu erhalten:
AttributeError: 'PipelinedRDD' object has no attribute 'toPandas'
Jede Hilfe wäre sehr geschätzt. Vielen Dank für Ihre Zeit.
SparkSession Spark 1.6 nicht verfügbar ist. SparkSession wurde nur in Spark 2.0 verfügbar. Ich kann nicht auf Spark 2.0 upgraden –