Ich bin ziemlich neu in Spark und ich habe versucht, einen Dataframe in Spark in eine Parkett-Datei zu konvertieren, aber ich hatte noch keinen Erfolg. Die documentation sagt, dass ich write.parquet Funktion verwenden kann, um die Datei zu erstellen. Allerdings, wenn ich das Skript ausführen es zeigt mir: Attribute: ‚RDD‘ Objekt kein Attribut ‚write‘Wie kann ich mit Spark (pyspark) eine Parkettdatei schreiben?
from pyspark import SparkContext
sc = SparkContext("local", "Protob Conversion to Parquet ")
# spark is an existing SparkSession
df = sc.textFile("/temp/proto_temp.csv")
# Displays the content of the DataFrame to stdout
df.write.parquet("/output/proto.parquet")
Wissen Sie, wie diese Arbeit zu machen?
Die Spark-Version, die ich verwende, ist Spark 2.0.1 für Hadoop 2.7.3 gebaut.
'sc.textFile()' gibt 'RDD' zurück. – mrsrinivas
Ja, ich habe es gerade erkannt. Ich habe gerade SparkSession statt SparkContext geändert – ebertbm