Anzahl der Spark-Partitionen beim Lesen von Buckets - S3 - GCS

S3 und GCS sind kein Blockspeicher wie HDFS, also ist die Art und Weise, wie Spark beim Lesen aus diesen Quellen Partitionen erstellt, für mich nicht klar. Ich lese jetzt von GCS, aber ich bekomme 2 Partitionen für kleine Dateien (10 Bytes), und auch für mittlere Dateien 100 MB.Anzahl der Spark-Partitionen beim Lesen von Buckets - S3 - GCS

Hat jemand eine Erklärung?

Quelle

2017-12-11 Edge7

im Allgemeinen ist es eine Konfigurationsoption, "wie groß, über Partitionsgröße zu liegen".

Quelle

2017-12-12 12:16:49

Meinst du Konfiguration in Spark Seite? wie split.size oder so ähnlich? – Edge7

ja; es ist entweder das oder ein Standardwert des Speichers/Formats –

Anzahl der Spark-Partitionen beim Lesen von Buckets - S3 - GCS

Antwort

Verwandte Themen