2016-12-27 7 views

Antwort

4

Überprüfen Sie die Entitäten (Stufen, Trennwände) in diesem Bild:

enter image description here

pic credits

Does Stufen in einem Job (? Funken Anwendung) parallel in Funken?

Ja, sie können parallel ausgeführt werden, wenn keine sequentielle Abhängigkeit besteht.

Hier können Partitionen der Stufe 1 und 2 parallel ausgeführt werden, aber keine Partitionen der Stufe 0, da die Abhängigkeitspartitionen in Stufe 1 & 2 verarbeitet werden müssen.

Gibt es eine Konsistenz in der Ausführung von Stufen, die von Programmierer definiert werden können oder wird es von Funkenmotor abgeleitet?

Bühnengrenze ist definiert durch, wenn Daten-Umordnung unter Partitionen geschieht. (Überprüfen Sie die rosafarbenen Linien im Bild)

+1

Ausgezeichnetes Bild !!! Danke, dass du es mit den Credits benutzt hast! –

+1

Danke für so detaillierte Erklärung ... –

3

Wie Stufen in einem Funkenjob ausführen

Stages eines Jobs parallel ausgeführt werden können, wenn es keine Abhängigkeiten zwischen ihnen ist.

In Spark werden die Phasen durch Grenzen aufgeteilt. Sie haben eine Shuffle-Stufe, bei der es sich um eine Grenzstufe handelt, bei der Transformationen geteilt werden, z. B. reduceByKey, und Sie haben eine Ergebnisstufe, bei der es sich um ein Ergebnis handelt, das kein Mischen verursacht, dh map:

Spark stages

(Picture provided by Cloudera)

Seit groupByKey ist eine Shuffle-Phase, können Sie die Spaltung in rosa-Boxen zu sehen, die eine Grenze markiert.

Intern ist eine Bühne weiter in Aufgaben unterteilt. Im obigen Bild kann die erste Zeile, die textFile -> map -> filter ist, in drei Aufgaben aufgeteilt werden, eine für jede Transformation.

Wenn ein Transformationen-Ausgang ein anderer Transformationen-Eingang ist, benötigen wir die serielle Ausführung. Wenn die Stufen jedoch nicht miteinander in Beziehung stehen, d. H. hadoopFile -> groupByKey -> map, können sie parallel ablaufen. Sobald sie ab diesem Zeitpunkt eine Abhängigkeit zwischen ihnen erklären, werden sie die Ausführung seriell fortsetzen.

+0

Phasen (d. h. ihre Aufgaben) können parallel ausgeführt werden, wenn zwischen ihnen keine Abhängigkeit besteht und in einem Cluster genügend Ressourcen vorhanden sind, um die Aufgaben auszuführen. –

+0

@JacekLaskowski Danke für die Korrektur. Ich habe vergessen, eine einzelne Transformation in einem Diagramm in mehrere unabhängige Stufen aufzuteilen. –

+0

Danke für Ihre Antwort Yuval..its sehr informativ –

Verwandte Themen