Shuffle:
MapReduce macht die Garantie, dass der Eingang zu jedem Minderer durch Schlüssel sortiert. Der Prozess, mit dem das System die Sortierung durchführt, und transfers map outputs to the reducers as inputs
wird als Shuffle bezeichnet.
Sortieren:
Sortierung in verschiedenen Stadien des MapReduce-Programms geschieht, kann so existiert in Karte und Phasen reduzieren.
haben Sie einen Blick auf dieses Diagramm
weitere Beschreibung oben Bild in Karte und Reduzieren Phasen Hinzufügen.
Die Karte Seite:
Wenn die Kartenfunktion Ausgabe beginnt mit der Produktion, ist es nicht einfach auf die Festplatte geschrieben. Bevor die Map-Ausgabe auf die Festplatte schreibt, wird der Thread zuerst an divides the data into partitions corresponding to the reducers
gesendet, an den sie letztendlich gesendet werden. Innerhalb jeder Partition ist die background thread performs an in-memory sort by key
.
Die Reduce Seite:
Wenn alle Karten Ausgänge kopiert wurden, bewegt sich die Verringerung Aufgabe in der Sortierphase (die eigentlich die Mischphase genannt werden sollte, da die Sortierung auf der Karte durchgeführt wurde Seite), die die Kartenausgaben zusammenführt und ihre Sortierung aufrechterhält. Dies wird in Runden durchgeführt.
Quelle: Hadoop Definitive Guide.
Recht, komme zurück zu meiner ursprünglichen Frage, Shuffle und Sortierung beide passieren auf Mapper und Reducer richtig? – red
ja !! Shuffle und Sortierung werden sowohl in Mapper als auch in Reducern in verschiedenen Szenarien durchgeführt. – mrsrinivas