Ich bin neu in Hadoop und einige Tests auf lokalen Maschine.Hadoop: Gibt die Verwendung von CombineFileInputFormat für kleine Dateien eine Leistungsverbesserung?
Es gab viele Lösungen, um mit viele kleine Dateien umzugehen. Ich benutze CombinedInputFormat welche erweitert CombineFileInputFormat.
Ich sehe, dass die Anzahl der Mapper von 100 auf 25 mit CombinedInputFormat geändert haben. Sollte ich auch einen Leistungszuwachs erwarten, da sich die Anzahl der Mapper verringert hat?
ich die Karte-reduzieren durchgeführt haben Arbeit auf viele kleine Dateien ohneCombinedInputFormat: 100 Mapper dauerte 10 Minuten
Aber wenn die Karten reduzieren Job mitCombinedInputFormat ausgeführt wurde: 25 Mapper dauerte 33 Minuten.
Jede Hilfe wird geschätzt.
Ich habe versucht, dieses Beispiel auf aws mit drei Knoten Cluster ausführen, aber keine Verbesserung in der Leistung in irgendeiner Weise gefunden. Mit insgesamt 1000 kleinen Dateien wurde die Anzahl der Mapper von 1000 auf 67 reduziert. – Astro