2016-09-07 5 views

Antwort

0

Aus architektonischer Sicht sind sie skalierbar, so dass es keine Begrenzung für die Spaltenanzahl sein sollte, aber es kann auf den Knoten Aufstieg zu einer ungleichmäßigen Belastung geben & die Gesamtleistung Ihrer Transformationen beeinflussen können.

+0

Es ist nicht korrekt. Sie können leicht eine harte Grenze finden ('Int.MaxValue'), aber was noch wichtiger ist Spark skaliert nur lange und relativ dünne Daten gut. Grundsätzlich können Sie einen einzelnen Datensatz nicht zwischen Executoren/Partitionen aufteilen. Und es gibt eine Reihe von praktischen Einschränkungen (GC, Disk-IO), die sehr breite Daten unpraktisch machen. Ganz zu schweigen von einigen bekannten Bugs. – zero323

+0

Die meisten (soweit ich weiß) Programmiermodelle skalieren "gut" für lange und dünne Daten. (Aus einem grundlegenden Grund würde der Datensatz unterbrochen werden, um auf die nächste relevante "logische Einheit" des Speichers nach einem Schwellenwert zu schreiben.) Die meisten "Big Data" -Frameworks sind so konzipiert, dass sie Daten ohne Grenzen verarbeiten können Überwindung der technischen Einschränkungen, mit einem Performance-Hit. Also ich denke, wir würden Speicherfehler bekommen, bevor wir das besagte Limit erreichen. Ihre Gedanken? – KiranM