Bei einem Job mit Map- und Reduce-Phasen kann ich sehen, dass der Output-Ordner Dateien wie "part-r-00000" enthält.Hadoop - Ergebnisse von Ausgabedateien nach Reduzierung erhalten?
Wenn ich diese Dateien auf Anwendungsebene nachbearbeiten muss, muss ich über alle Dateien im Ausgabeordner in natürlicher Namensreihenfolge iterieren (part-r-00000, part-r-00001, part-r-00002) ...) um Arbeitsergebnisse zu erhalten?
Oder ich kann einen Hadoop-Hilfsdatei-Leser verwenden, der es mir erlaubt, einen "Iterator" zu bekommen und die Dateiumschaltung für mich zu übernehmen (wenn die Datei part-r-00000 vollständig gelesen wird, fahre von Datei part-r-00001 fort)
Ich muss diese Dateien auf einen anderen Host und transform/Inhalt in die Datenbank einfügen. Ich kann diese Einfügung nicht auf der Reduzierungsstufe durchführen, da Cluster keinen Zugriff auf die Datenbank hat. – jdevelop