2017-06-24 2 views
0

Gibt es rules of thumb - für, wenn die Datengröße ausreicht, um den Overhead auszugleichen, der Funke Verarbeitung erfordert?Spark Job geschätzten Overhead auf kleineren Datensätzen

Ich arbeite an zwischen 1 und 10 Millionen Datensätze. Jeder Datensatz enthält 5 IDs; und eine kleine (weniger als 5000 Zeichen) Menge an Text.

Die Arbeitsbelastung besteht darin, Berichte zu erstellen - also filtern; Gruppe und Aggregat. In den meisten Fällen; die Aggregation auf oberster Ebene erfolgt über alle Datensätze; Irgendwann in der Berichterzeugung - ich habe keinen guten Partitionsschlüssel, um damit zu arbeiten.

Wissend, dass die Frage auf specificals niedrig ist; aber springt das von der Seite, dass ich viele dumme Dinge in Spark mache? Oder würde die Job-Orchestrierung dazu beitragen, diese Art von Overhead hinzuzufügen; und ich wäre besser dran, Spark nur für größere Datensätze zu verwenden?

Dank

Antwort

Verwandte Themen