Das Ergebnis mehrerer Mapper sortiert nach Reducer in Hadoop

Ich habe mehrere sehr große Dateien (fast 500MB) als Eingabe für mein MR-Programm. Ich teile (spalte) diese Dateien in Partitionen gleicher Größe. Jeder Mapper bekommt einzelne Partition einer DateiDas Ergebnis mehrerer Mapper sortiert nach Reducer in Hadoop

Mapper: Key = (Dateiname, Partitions) und Value = (Zeichenstrom-Partition)

Ich bin eine Berechnung auf Wert (Zeichenstrom) in Mapper Anwendung. Ich möchte das Ergebnis einer Eingabedatei (für alle Teile) in einem Reduzierer sammeln. Also dachte ich an Reducer i/p Taste als 'Dateiname'. Aber die vom Mapper ausgegebenen müssen sequentiell im Reduzierer gesammelt werden. (Wie [partition1 o/p + partition2 + ... + partitionN o/p])

Können Sie mir die Logik vorschlagen? Danke.

Quelle

2016-04-01 Sumit

Sie benötigen eine sekundäre Sortierung. Ein Beispiel finden Sie https://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/

In diesem Fall“

Primär vergleicht auf [Dateiname, Partitions]
Gruppe Vergleicher auf Dateinamen nur
Partitioner auf Dateinamen nur

Quelle

2016-04-04 10:34:03 alexeipab

Das Ergebnis mehrerer Mapper sortiert nach Reducer in Hadoop

Antwort

Verwandte Themen