Wie kann ich eine Gzip komprimierte CSV-Datei in Pyspark auf Spark 2.0 laden?Laden komprimierte CSV-Datei in Spark 2.0
Ich weiß, dass eine nicht komprimierte CSV-Datei wie folgt geladen werden kann:
spark.read.format("csv").option("header",
"true").load("myfile.csv")
oder
spark.read.option("header", "true").csv("myfile.csv")
Vorsicht mit gezippten CSV-Dateien - Sie erhalten 1 Partition pro Datei, da sie nicht teilbar sind. Siehe diese Frage/Antwort für weitere Informationen: http://stackoverflow.com/questions/40336485/spark-local-mode-all-jobs-only-use-one-cpu-core/40370994#40370994 – Tim