Wie aggregiert der Reduktor den Output aller Reduktoren und produziert den endgültigen Output?

Wenn in einem Map Reduce-Code mehrere Reduzierungen vorhanden sind, besteht zwischen diesen keine Kommunikation. Wenn jedoch eine Operation wie die Aggregation durchgeführt wird, erzeugen alle Reduzierer zusammen eine einzige Endausgabe. Wie erfolgt die Aggregation, wenn keine Kommunikation zwischen ihnen stattfindet? (Context.write())Wie aggregiert der Reduktor den Output aller Reduktoren und produziert den endgültigen Output?

Quelle

2016-05-05 spark_dream

Wenn Sie die Anzahl der reduzierenden Aufgaben auf 1 setzen (was auch der Standardwert ist), werden alle reduce() -Methoden von demselben ausgeführt Aufgabe, so dass keine Kommunikation benötigt wird.

Wenn Sie die Anzahl der reduzieren Aufgaben n gesetzt, dann werden Sie n Ausgabedateien haben, nicht nur 1. Diese Ergebnisse sind in der Tat unabhängig. Vielleicht sollten Sie angeben, was Sie mit "Aggregation" meinen.

Quelle

2016-05-06 11:57:26 vefthym

Danke für die Antwort @veththym. Ich verstehe, dass es so viele Teildateien wie die Anzahl der Reduzierungen geben würde. Aber meine Frage war die Logik oder die durchgeführte Operation wird auf allen Reduzierern sein und es wird nur einen Ausgang für alle diese geben und nicht ein lokales Ergebnis pro Reduzierer (was ein Kombinierer tut). Klärt das meine Frage? –

@spark_dream Nein, tut es nicht. Jeder der Reduzierer arbeitet unabhängig, verarbeitet eine unabhängige Menge von Schlüsseln (regiert von Partitioner) und hat einen eigenen unabhängigen Ausgabepfad in HDFS. Also verstehe ich nicht, was Sie unter dem Begriff "Aggregation" verstehen. – gudok

@gudok Lass mich es klarer machen. Wenn mein Anwendungsfall zum Beispiel darin besteht, die Gesamtzahl der Wörter in einer gegebenen Textdatei zu finden (nicht die individuelle Anzahl für jedes Wort), wie könnte ein MapReduce-Job dies tun? –

Wie aggregiert der Reduktor den Output aller Reduktoren und produziert den endgültigen Output?

Antwort

Verwandte Themen