Spark Job geschätzten Overhead auf kleineren Datensätzen

Gibt es rules of thumb - für, wenn die Datengröße ausreicht, um den Overhead auszugleichen, der Funke Verarbeitung erfordert?Spark Job geschätzten Overhead auf kleineren Datensätzen

Ich arbeite an zwischen 1 und 10 Millionen Datensätze. Jeder Datensatz enthält 5 IDs; und eine kleine (weniger als 5000 Zeichen) Menge an Text.

Die Arbeitsbelastung besteht darin, Berichte zu erstellen - also filtern; Gruppe und Aggregat. In den meisten Fällen; die Aggregation auf oberster Ebene erfolgt über alle Datensätze; Irgendwann in der Berichterzeugung - ich habe keinen guten Partitionsschlüssel, um damit zu arbeiten.

Wissend, dass die Frage auf specificals niedrig ist; aber springt das von der Seite, dass ich viele dumme Dinge in Spark mache? Oder würde die Job-Orchestrierung dazu beitragen, diese Art von Overhead hinzuzufügen; und ich wäre besser dran, Spark nur für größere Datensätze zu verwenden?

Dank

Quelle

2017-06-24 brent

Die informativsten Stück docs ich über

Spark can efficiently support tasks as short as 200 ms https://spark.apache.org/docs/2.1.0/tuning.html

war, kam

Quelle

2017-07-07 18:07:30 brent

Spark Job geschätzten Overhead auf kleineren Datensätzen

Antwort

Verwandte Themen