2016-04-01 10 views
0

Ich habe mehrere sehr große Dateien (fast 500MB) als Eingabe für mein MR-Programm. Ich teile (spalte) diese Dateien in Partitionen gleicher Größe. Jeder Mapper bekommt einzelne Partition einer DateiDas Ergebnis mehrerer Mapper sortiert nach Reducer in Hadoop

Mapper: Key = (Dateiname, Partitions) und Value = (Zeichenstrom-Partition)

Ich bin eine Berechnung auf Wert (Zeichenstrom) in Mapper Anwendung. Ich möchte das Ergebnis einer Eingabedatei (für alle Teile) in einem Reduzierer sammeln. Also dachte ich an Reducer i/p Taste als 'Dateiname'. Aber die vom Mapper ausgegebenen müssen sequentiell im Reduzierer gesammelt werden. (Wie [partition1 o/p + partition2 + ... + partitionN o/p])

Können Sie mir die Logik vorschlagen? Danke.

Antwort

Verwandte Themen