mehrere Aufgaben parallel ausgeführt, um sicherzustellen, ich eine Aufgabenliste Datei in HDFS haben und die Liste der Aufgaben sind CPU-gebunden und sind in einem kleinen 5-Knoten-Cluster mit Hadoop MapReduce ausgeführt werden (Nur Karte) Zum Beispiel enthält die Aufgabenlisten-Datei 10 Zeilen, von denen jede einem Task-Befehl entspricht. Da die Ausführung jeder Aufgabe sehr lange dauert, ist es auf jeden Fall effizienter, die aufgelisteten 10 Aufgaben auf allen 5 Knoten parallel auszuführen.Hadoop MapReduce: Wie bei allen Knoten
Da die Tasklistendatei jedoch ziemlich klein ist, befindet sich dieser Datenblock wahrscheinlich nur auf einem Knoten, sodass nur dieser Knoten alle diese 10 Tasks basierend auf dem Prinzip der Datenlokalität ausführt. Gibt es eine Lösung, um sicherzustellen, dass alle 10 Aufgaben auf allen 5 Knoten parallel ausgeführt werden?
Je nachdem, ob Sie mögen, dass etwas anderes auf dem Cluster ausgeführt werden, sehr einfach, aber mit einigen Nachteilen Lösung könnte die Zahl der Mapper pro Knoten (mapred.tasktracker.map.tasks.maximum Konfiguration) begrenzend – Serhiy