Ich lerne Funken und habe eine Frage über Job-Scheduling und Shuffle-Abhängigkeiten. Hier wird die DAG ich there gefunden:Verständnis shuffle in Funken
Wie wir auf der Stage 33
sehen wir mehrere Operationen haben: groupBy
, join
, groupBy
, join
. Die Frage ist, ich verstehe nicht ganz, warum zwei group by-Operationen in die gleiche Phase gebracht wurden. Ich dachte, groupBy
erfordert shuffling und wir die DAGScheduler
sollte Stage 33
in 2 Stufen mit den einzelnen groupBy
und join
teilen.