Gibt es rules of thumb
- für, wenn die Datengröße ausreicht, um den Overhead auszugleichen, der Funke Verarbeitung erfordert?Spark Job geschätzten Overhead auf kleineren Datensätzen
Ich arbeite an zwischen 1 und 10 Millionen Datensätze. Jeder Datensatz enthält 5 IDs; und eine kleine (weniger als 5000 Zeichen) Menge an Text.
Die Arbeitsbelastung besteht darin, Berichte zu erstellen - also filtern; Gruppe und Aggregat. In den meisten Fällen; die Aggregation auf oberster Ebene erfolgt über alle Datensätze; Irgendwann in der Berichterzeugung - ich habe keinen guten Partitionsschlüssel, um damit zu arbeiten.
Wissend, dass die Frage auf specificals niedrig ist; aber springt das von der Seite, dass ich viele dumme Dinge in Spark mache? Oder würde die Job-Orchestrierung dazu beitragen, diese Art von Overhead hinzuzufügen; und ich wäre besser dran, Spark nur für größere Datensätze zu verwenden?
Dank