Ich versuche, etwas Code von Spark 1.6 zu Spark 2.0 mit neuen Materialien aus Spark 2.0 zu portieren. Zuerst möchte ich den csv-Reader von Spark 2.0 verwenden. BTW, ich benutze pyspark.Spark 2.0 lesen CSV Anzahl der Partitionen (PySpark)
Mit der "alten" textFile
Funktion kann ich die minimale Anzahl von Partitionen einstellen. Ex:
file= sc.textFile('/home/xpto/text.csv', minPartitions=10)
header = file.first() #extract header
data = file.filter(lambda x:x !=header) #csv without header
...
Jetzt, mit Spark-2.0 Ich kann die csv direkt lesen:
df = spark.read.csv('/home/xpto/text.csv', header=True)
...
Aber ich finde nicht einen Weg, die minPartitions
einzustellen.
Ich brauche dies, um die Leistung meines Codes zu testen.
Thx, Fred
Gemäß der Dokumentation 'coalesce()' kann nur die Anzahl der Partitionen verringert werden. 'coalesce()' erhöht nicht die Anzahl der Partitionen. Dafür müssen Sie 'repartition()' verwenden und die Kosten für eine Datenmischung um Funkenarbeiter bezahlen. – DavidF