Spark Dataframe Maximale Spaltenanzahl

Wie hoch ist die maximale Anzahl der Spalten in Spark Dataframe? Ich habe versucht, es von der Datenrahmendokumentation zu bekommen, aber ich konnte es nicht finden.Spark Dataframe Maximale Spaltenanzahl

Quelle

2016-09-07 Saran

Aus architektonischer Sicht sind sie skalierbar, so dass es keine Begrenzung für die Spaltenanzahl sein sollte, aber es kann auf den Knoten Aufstieg zu einer ungleichmäßigen Belastung geben & die Gesamtleistung Ihrer Transformationen beeinflussen können.

Quelle

2016-09-07 17:19:52 KiranM

Es ist nicht korrekt. Sie können leicht eine harte Grenze finden ('Int.MaxValue'), aber was noch wichtiger ist Spark skaliert nur lange und relativ dünne Daten gut. Grundsätzlich können Sie einen einzelnen Datensatz nicht zwischen Executoren/Partitionen aufteilen. Und es gibt eine Reihe von praktischen Einschränkungen (GC, Disk-IO), die sehr breite Daten unpraktisch machen. Ganz zu schweigen von einigen bekannten Bugs. – zero323

Die meisten (soweit ich weiß) Programmiermodelle skalieren "gut" für lange und dünne Daten. (Aus einem grundlegenden Grund würde der Datensatz unterbrochen werden, um auf die nächste relevante "logische Einheit" des Speichers nach einem Schwellenwert zu schreiben.) Die meisten "Big Data" -Frameworks sind so konzipiert, dass sie Daten ohne Grenzen verarbeiten können Überwindung der technischen Einschränkungen, mit einem Performance-Hit. Also ich denke, wir würden Speicherfehler bekommen, bevor wir das besagte Limit erreichen. Ihre Gedanken? – KiranM

Spark Dataframe Maximale Spaltenanzahl

Antwort

Verwandte Themen