2017-01-13 3 views

Antwort

1

Zitiert Hive's documentation:

mapred.reduce.tasks < - (In GARN ist es mapreduce.job.reduces)
Standardwert: -1
hinzugefügt: Hive 0.1.0

Die Standardanzahl von reduzierenden Aufgaben pro Job. In der Regel auf einen Primzahlwert in der Nähe der Anzahl der verfügbaren Hosts festgelegt. Wird ignoriert, wenn mapred.job.tracker "lokal" ist. Hadoop setzt dies standardmäßig auf 1, während Hive -1 als Standardwert verwendet. Wenn Sie diese Eigenschaft auf -1 setzen, wird Hive automatisch herausfinden, wie viele Reduzierungen es geben soll.

Die Anzahl der Reduzierungen ist viel höher als die Anzahl der Ausgabedateien. Es definiert gewissermaßen das Niveau der Parallelität, d. H. Wie viele Reduzierungsaufgaben parallel ausgeführt werden. Wenn 1 Task reduziert wird, wird keine Parallelität erreicht. Wenn 2 Reduzierungsaufgaben verwendet werden, idealerweise, möchten Sie die Arbeitslast (und die Ausführungszeit) jeder Reduzierungsaufgabe auf die Hälfte reduzieren. Das gleiche gilt für die Anzahl der Mapper, aber das ist schwieriger zu setzen.

Verwandte Themen