Angenommen: Ich habe einen Hadoop-Cluster, in dem für jede Datenfolie drei Kopien festgelegt sind.Wie wählt hdfs aus, welche Kopie gelöscht werden soll?
Eines Tages wird ein Datanode entfernt (angenommen, die darin gespeicherten Daten sind in Ordnung), und dann werden hdfs neue Kopien für die in diesem Knoten gespeicherten Daten erzeugen, so dass die Datenslide noch 3 Kopien haben. Aber wenn Datanode am nächsten Tag wieder eingesteckt wird, haben einige Datenrutschen 4 Kopien, dann muss hdfs 1 von 4 Kopien löschen.
Meine Frage ist, wie wählt hdfs die zu löschen? nach dem Zufallsprinzip? oder einfach die neueste löschen (das bedeutet, dass der Datenknoten gelöscht wird)?
Die Blockstandorte der Datei auf dem Namenknoten ändern sich so, dass sie auf das "neue" dritte Replikat zeigen. Ich glaube nicht, dass Sie einfach die alte Festplatte wieder anhängen und die Daten automatisch korrigieren lassen. –
Hallo @ 3692015, wenn diese oder jede Antwort Ihre Frage gelöst hat, beachten Sie bitte [akzeptieren] (http://meta.stackexchange.com/q/5234/179419), indem Sie auf das Häkchen klicken. Dies zeigt der breiteren Gemeinschaft, dass Sie eine Lösung gefunden haben und sowohl dem Antworter als auch Ihnen einen guten Ruf verschaffen. Es besteht keine Verpflichtung, dies zu tun. – mrsrinivas