0

S3 und GCS sind kein Blockspeicher wie HDFS, also ist die Art und Weise, wie Spark beim Lesen aus diesen Quellen Partitionen erstellt, für mich nicht klar. Ich lese jetzt von GCS, aber ich bekomme 2 Partitionen für kleine Dateien (10 Bytes), und auch für mittlere Dateien 100 MB.Anzahl der Spark-Partitionen beim Lesen von Buckets - S3 - GCS

Hat jemand eine Erklärung?

Antwort

0

im Allgemeinen ist es eine Konfigurationsoption, "wie groß, über Partitionsgröße zu liegen".

+0

Meinst du Konfiguration in Spark Seite? wie split.size oder so ähnlich? – Edge7

+0

ja; es ist entweder das oder ein Standardwert des Speichers/Formats –

Verwandte Themen