Ich verwende AWS EMR, um einen Map Reduce-Job auszuführen. Mein Eingabe-Set enthält 1 Million Dateien mit jeweils ca. 15 KB. Da Eingabedateien sehr klein sind, führt dies zu einer großen Anzahl von Mappern. Also habe ich s3 Blockgröße auf 20KB geändert und 5 r3.2xlarge Instanzen verwendet, aber die Anzahl der gleichzeitig laufenden Tasks ist immer noch nur 30. Sollte der Job nach dem Reduzieren der Blockgröße oder sogar nach dem Reduzieren der Blockgröße nicht mehr gleichzeitige Mapper laufen lassen , Speicher, der von jedem Mapper genommen wird, ist immer noch gleich?MapReduce: Anzahl gleichzeitiger Mapper-Aufgaben erhöhen
Wie kann ich die Speichernutzung jedes Mappers begrenzen oder die Anzahl gleichzeitiger Mapper-Aufgaben erhöhen? Die aktuell erwartete Ausführungszeit beträgt 100 Stunden. Werden diese Dateien mit einer geringeren Anzahl größerer Dateien kombiniert, wie zB 400 MB Dateien, erhöht sich die Verarbeitungszeit?