Ich würde mich sehr freuen, wenn jemand diese paar Spark shuffle Fragen vereinfacht beantworten könnte.Understanding shuffle und rePartitioning in spark
In Funken, wenn eine Datensatz geladen, geben wir die Anzahl der Partitionen festgelegt sind, die, wie viele Block sollte die Eingangsdaten (RDD) unterteilt werden in teilt, und auf der Basis der Anzahl der Teilungen, die gleiche Anzahl von Aufgaben gestartet (richtig, wenn die Annahme falsch ist) .für X Anzahl der Kerne in Arbeitern node.corresponding X Anzahl der Aufgabe auf einmal laufen.
In einer ähnlichen Richtung, hier sind die wenige Fragen.
Da alle ByKey-Operationen zusammen mit Coalesce, Repartition, Join und Cogroup Daten shuffle verursacht.
Werden die Daten einen anderen Namen für repartitiong Betrieb mischen?
Was die ersten Partitionen geschieht (Anzahl der Partitionen erklärt), wenn Neuverteilungen passiert.
Kann jemand geben Beispiel (bitte angeben), wie Datenbewegung über im gesamten Cluster happens.i paar Beispiele gesehen hat, wo zufällige Pfeil Bewegung der Schlüssel angezeigt wird (aber nicht wissen, wie die Bewegung angetrieben wird), zum Beispiel Wenn wir bereits Daten in 10 Partitionen haben, kombiniert der Vorgang der erneuten Partitionierung zuerst alle Daten und sendet dann den bestimmten Schlüssel basierend auf dem Hash-Code% numberofpartitions an die jeweilige Partition.