MaxParkettblockgröße in PySpark angeben

2016-04-27 17 views 1 likes

Ich kann erfolgreich eine CSV-Datei in eine Parquet-Datei konvertieren, aber die Parquet-Datei ist in eine Tonne von 2-3mb-Dateien aufgeteilt. Als Beispiel wird eine ~ 25gb CSV in eine Parquet Datei mit über 700 Dateien umgewandelt. Meine Forschung zeigt, dass es zwischen 256 MB und 1 GB sein sollte. Wie lege ich die Größe im Voraus fest?MaxParkettblockgröße in PySpark angeben

Ich habe gesehen, dass Impala es über PARQUET_FILE_SIZE macht. Ich habe nichts für PySpark gefunden. Beispiel-Code unten:

df.write.mode("overwrite").parquet("s3n://%s:%[email protected]%s/%s" % (ACCESS_KEY, SECRET_KEY, AWS_BUCKET_NAME, FOLDER_FOR_PARQUET_RESULTS))

Quelle

2016-04-27 Frank B.

Antwort

Versuchen:

df \ 
.repartition(100) \ 
.write \ 
.mode("overwrite") \ 
.parquet("s3n://%s:%[email protected]%s/%s" % (ACCESS_KEY, SECRET_KEY, \ 
AWS_BUCKET_NAME, FOLDER_FOR_PARQUET_RESULTS))

Repartition wird, na ja, neu partitionieren Datenrahmen in 100 Partitionen (ca. 256 MB in Größe - unkomprimiert) diese größere Parkett Dateien erstellen soll.

Quelle

2016-04-29 12:33:18 user3778817

Richtig, aber meine ursprüngliche Dateigröße wird sich ändern, daher würde ich lieber die Dateigröße angeben als die Anzahl der Partitionen schätzen zu müssen. –

Verwandte Themen

1. Berechnung gewichteten Mittelwert in PySpark
2. Zufallszahlen Generation in PySpark
3. Trans RDD in PySpark
4. Column Filterung in PySpark
5. Passing-Funktion in pyspark
6. Explode in PySpark
7. .Cartesian() in PySpark
8. Importieren Pyspark Fehler Pyspark mit Python 3.5.1
9. sammeln RDD mit Puffer in pyspark
10. PySpark PicklingError
11. PySpark Druck
12. PySpark Auswertung
13. pyspark mit
14. Wie Avro-Datei in PySpark lesen
15. PySpark createExternalTable() aus SQLContext
16. pyspark: Randomize Zeilen in Datenrahmen
17. Ngram Frequenz-Ranking in Pyspark
18. to.JSON() in Funken Verwendung pyspark
19. Filterung zwei RDD in pyspark
20. Arbeiten mit Reißverschlüssen in pyspark
21. Referenzierung Spalten in Pyspark Dataframe
22. RDD in iterable konvertieren: PySpark?
23. Abwechselnd kleinster Fehler in pyspark
24. Pyspark String in Datumsformat konvertieren
25. Zufallsauswahl in pyspark mit ersatz
26. Run PySpark als Skript
27. PySpark Karte nicht
28. Pyspark Befehl nicht erkannt
29. PySpark Serialisierung EOFError
30. Pyspark: shuffle RDD