0
S3 und GCS sind kein Blockspeicher wie HDFS, also ist die Art und Weise, wie Spark beim Lesen aus diesen Quellen Partitionen erstellt, für mich nicht klar. Ich lese jetzt von GCS, aber ich bekomme 2 Partitionen für kleine Dateien (10 Bytes), und auch für mittlere Dateien 100 MB.Anzahl der Spark-Partitionen beim Lesen von Buckets - S3 - GCS
Hat jemand eine Erklärung?
Meinst du Konfiguration in Spark Seite? wie split.size oder so ähnlich? – Edge7
ja; es ist entweder das oder ein Standardwert des Speichers/Formats –