2016-05-17 13 views
1

Ich bin nur neugierig, warum die Hadoop Map Spill Größe, die io.sort.mb ist 100 MB (Standard), wenn die Blockgröße 128 MB ist. Wäre es nicht sinnvoller, ihn gleich der Blockgröße zu setzen, da eine Map-Task sowieso so viele Daten verarbeitet? Natürlich verstehe ich, dass es Probleme geben kann, mehr Arbeitsspeicher zuzuweisen, aber gibt es da noch etwas mehr?Hadoop Map Spill Größe und Blockgröße

Antwort

1

io.sort.mb ist die Gesamtmenge an Pufferspeicher, die benötigt wird, um Dateien im Speicher zu sortieren. Als ideale Faustregel sollte immer nicht mehr als 70% des gesamten RAM eingestellt werden. Die Blockgröße bezieht sich im Wesentlichen auf die Einstellung der Größe von Datei-Chunks auf einer Festplatte. Sie können Input-Splits sehr gut mit der HDFS-Blockgröße verknüpfen.

Werfen Sie einen Blick auf diesen Beitrag eine bessere Idee

http://mail-archives.apache.org/mod_mbox/hadoop-common-user/201104.mbox/%[email protected]%3E

zu erhalten