In this Cloudera Blogpost, in der Replication
Abschnitt wurde erläutert, dass die Replikation Speicher auf dem NameNode nicht verbraucht. Ich bin jedoch skeptisch, weil ich weiß, dass der NameNode Informationen über jede Datei sowie ihre Replikate im Hauptspeicher speichert. Wie ist also der Speicherbedarf derselbe mit oder ohne Replikation?Speicher erforderlich für NameNode für Replikate in Hadoop
Antwort
Nun Speicherverbrauch hängt davon ab, was Sie meinen, weil es physischen Speicher und virtuellen Speicher (ich rede NameNode hier nur)
In Bezug auf die physischen Speicher, der Cloudera Blog korrekt, da es die Verantwortung des Datanodes ist, mit dem Namennode zu kommunizieren (wenn zum Beispiel nach dem Neustart eine Verbindung hergestellt wird), welche Blöcke er unterhält. Der Nameode speichert nur die Dateisystemstruktur auf dem Datenträger (fsimage- und edits-Dateien).
Jetzt ist die Situation etwas anders, wenn Sie über virtuelle Speicher sprechen, wo man deutlich aus dem Quellcode zu sehen, dass FSNamesystem
(die Komponente für die Aufrechterhaltung der FS-Struktur im RAM verantwortlich ist), einen Verweis auf BlockManager
. BlockManager
für sich behält den Verweis auf BlocksMap
bei, der gemäß der Dokumentation die Liste der Datenblöcke mit entsprechenden Blöcken führt.
Diese Klasse verwaltet die Zuordnung von einem Block zu den Metadaten. Die Metadaten des Blocks enthalten derzeit die blockCollection, zu der er gehört, und die Datenblöcke, die den Block speichern.
Wenn Sie den Quellcode des BlockManager
durchlaufen kann man deutlich sehen, was und wo die BlocksMap
verwendet wird.
Was mir eigentlich einfällt, weil Cloudera Jungs Erfahrung in großen Berechnungen haben und wahrscheinlich die Auswirkungen gemessen haben, ist, dass die Größe dieser Struktur im Vergleich zu den übrigen Metadaten nicht signifikant ist, die der Nameode beachten muss von.
- 1. Hadoop NameNode
- 2. Hadoop fsck zeigt fehlende Replikate
- 3. Einige Informationen benötigt für Hadoop namenode
- 4. Was ist der Befehl hadoop namenode für
- 5. Hadoop - namenode startet nicht
- 6. Fehler beim Starten von namenode in hadoop?
- 7. Hadoop von NameNode und DataNode Dateien
- 8. Wie funktioniert der Hadoop-Namenode-Failover-Prozess?
- 9. kann nicht gestartet werden hadoop namenode
- 10. Abfrage auf hadoop namenode -format Befehl
- 11. hadoop-Nicht in der Lage NameNode ohne Format
- 12. Hadoop: Format abgebrochen in/mnt/hdfs/1/namenode
- 13. konnte nicht formatieren Sie die NameNode in hadoop
- 14. NameNode Startfehler: Kein Dateisystem für Schema: ht
- 15. Hadoop Namenode muss nach jedem Computerstart formatiert werden
- 16. (Hadoop) mkdir: Anruf von NameNode/192.168.21.129 bis NameNode: 10001 fehlgeschlagen auf Verbindung
- 17. Was der Befehl "hadoop namenode -format" tun wird
- 18. Metadaten für große und kleine Dateien in Bezug auf Hadoop
- 19. Die Standorteigenschaft ist für diese Definition erforderlich
- 20. pom.xml für Hadoop 2.6.0
- 21. Hadoop für JSON-Dateien
- 22. Beispieldaten für Hadoop
- 23. Verwalten Replikate Anzahl für die Bereitstellung mit Kubernetes API
- 24. Vertrauensstufe erforderlich für Mitgliedschaftsanbieter
- 25. Hadoop-Administration
- 26. NodeManager NameNode Resourcemanager DataNode SecondaryNameNode läuft nicht
- 27. Wie viel NameNode kann in einem einzigen Hadoop-Cluster vorhanden sein?
- 28. Repository-Organisation für Hadoop-Projekt
- 29. Wie funktioniert das Intervall für den Papierkorb-Check in Hadoop? und warum checkpoint_intereval erforderlich ist?
- 30. Kostenlose Hadoop-Cluster für Experimente