Ich habe eine komplexe Schweine-Skript. Von seinen Protokollen kann ich sehen, dass es 2 oder 3 MR-Prozesse sequentiell überspannt, abhängig vom Datenvolumen. (Sagen wir mal, A & B)Schwein, warum es mehr als einen mapreduce Prozess läuft?
PS: B ausgelöst erst nach Abschluss
Ist das erwartet? Gibt es eine Möglichkeit, herauszufinden, welcher Teil meines Schweineskriptes welchen Prozess auslöst? Mein Endziel ist es, das Schwein-Skript zu optimieren, um schneller zu laufen.
Einfachere Version meiner Aufgabe ist wie folgt. Dieses Pig-Skript durchläuft umfangreiche Protokolldateien aus verschiedenen Anwendungen. Für jedes Protokoll parst er die Daten mit Regex und berichtet Metriken wie Traffic Count, Avg bzw. Zeit für verschiedene Dimensionen pro Stunde
Der Code ist wirklich lang und macht mehrere For-jedes mit Filtern, ein Join & eine große GROUP BY mit mehreren Dimensionen.