Ich habe einen Hadoop-Cluster mit 4 DataNodes. Ich bin verwirrt zwischen den beiden Fragen: Datenreplikation und Datenverteilung.HDFS-Replikation und Datenverteilung
Angenommen, ich habe eine 2 GB-Datei und mein Replikationsfaktor ist 2 & Blockgröße ist 128 MB. Wenn ich diese Datei in hdfs einfüge, sehe ich, dass 2 Kopien von jeder 128 MB Blöcke erstellt werden und sie in Datanode3 und Datanode4 platziert werden. Aber Datanode2 & Datanode1 werden nicht verwendet. Die Daten werden wegen des Replikationsfaktors repliziert, aber ich erwarte einige Datenblöcke in Datenknoten1 und Datenknoten2. Ist etwas falsch? Nehmen wir an, ich habe 20 DataNodes und einen Replikationsfaktor von 2. Wenn ich eine Datei (2 GB) auf HDFS lege, erwarte ich wieder zwei Kopien von jeweils 128 MB, aber auch 128 MB Blöcke verteilt zwischen 20 DataNodes.