In Mapreduce gilt die Replikation auch für Zwischendaten?

In Mapreduce sagen wir, dass die von Mappern erzeugte Ausgabe als Zwischendaten bezeichnet wird.In Mapreduce gilt die Replikation auch für Zwischendaten?

Werden Zwischendaten auch repliziert?

Sind Zwischendaten vorübergehend?

Wann werden Zwischendaten gelöscht? Wird es automatisch gelöscht oder müssen wir es explizit löschen?

Quelle

2016-05-11 Surender Raja

Mappers verschüttete Dateien werden im lokalen Dateisystem des Worker-Knotens gespeichert, auf dem der Mapper ausgeführt wird. Ähnlich werden die von einem Knoten zu einem anderen Knoten gestreamten Daten im lokalen Dateisystem des Arbeiterknotens gespeichert, auf dem die Aufgabe ausgeführt wird.

Dieser lokale Dateisystempfad wird durch hadoop.tmp.dir Eigenschaft, die standardmäßig angegeben ist '/ tmp'.

Nach dem Abschluss oder dem Fehlschlagen des Jobs wird der im lokalen Dateisystem verwendete temporäre Speicherort automatisch gelöscht. Sie müssen keinen Bereinigungsprozess durchführen, da dieser automatisch vom Framework verarbeitet wird.

Quelle

2016-05-11 07:35:28

Also in einfachen Worten, Zwischendaten werden nicht repliziert und sie werden automatisch gelöscht. ist das richtig? –

alles, was in hdfs eingeht, hat den Standard-Replikationsfaktor. aber in diesem Fall sind Daten im lokalen Dateisystem vorhanden. daher wird es nicht repliziert. Ja, sie werden automatisch gelöscht –

In Mapreduce gilt die Replikation auch für Zwischendaten?

Antwort

Verwandte Themen