2016-11-02 2 views
0

Wie kann ich eine Gzip komprimierte CSV-Datei in Pyspark auf Spark 2.0 laden?Laden komprimierte CSV-Datei in Spark 2.0

Ich weiß, dass eine nicht komprimierte CSV-Datei wie folgt geladen werden kann:

spark.read.format("csv").option("header",   
           "true").load("myfile.csv") 

oder

spark.read.option("header", "true").csv("myfile.csv") 
+0

Vorsicht mit gezippten CSV-Dateien - Sie erhalten 1 Partition pro Datei, da sie nicht teilbar sind. Siehe diese Frage/Antwort für weitere Informationen: http://stackoverflow.com/questions/40336485/spark-local-mode-all-jobs-only-use-one-cpu-core/40370994#40370994 – Tim

Antwort

0

Sie spark.sparkContext.textFile("file.gz")

Die Dateierweiterung .gz

+0

Dies erzeugt eine rdd, kein Datenrahmen. Gibt es überhaupt das direkte Einlesen in einen DataFrame, anstatt die rdd in einen DataFrame konvertieren zu müssen? – femibyte

+0

Eigentlich macht nichts, das folgende funktioniert mit gezippten CSV-Dateien: '' 'spark.read.option (" header "," true "). Csv (" myfile.csv ")' '' – femibyte

1

sein sollte, verwenden können Ich habe gerade entdeckt, dass das Folgende funktioniert mit gezippten CSV-Dateien:

spark.read.option("header", "true").csv("myfile.csv")