2016-06-22 4 views
0

Wir haben hdfs mit einer Kapazität von 900 TB. Da die gespeicherten Daten stark anwachsen, ist es schwierig zu verfolgen, was nützlich ist und was gelöscht werden könnte. Ich möchte hdfs Nutzung für folgende Muster analysieren, so dass die Kapazität optimal genutzt werden könnte.So erhalten Sie den hdfs-Nutzungsbericht im Detail

  1. Auf welche Daten werden häufig zugegriffen.
  2. Daten werden nicht lange berührt/zugegriffen (Möglicher Löschkandidat)
  3. Datenverteilungsverteilung durch Benutzer.
  4. Aktive Benutzer.

Antwort

1

Sie können diese Daten ableiten:

  • (1) HDFS Audit-Log (Zugriffsmuster pro Benutzer/ip)
  • (2) fsimage (Zugriffszeit pro Datei, die Daten nicht zugegriffen)

(1) Ist das HDFS-Überwachungsprotokoll aktiviert? Lesen Sie mehr here.

(2) mit fsimage this lesen zu starten - es ein Beispiel „Daten für lange Zeit nicht berührt wird/zugegriffen“

Sie auch HAR betrachten wünschen können zu bekommen, ist, die Daten zu archivieren (statt löschen) - Reduzieren Sie somit sowohl die Speichernutzung als auch den wertvollen Speicher auf dem Namenknoten.

Verwandte Themen