Ich bin neu im Map-Reduce-Framework. Ich möchte die Anzahl der Dateien in einem bestimmten Verzeichnis herausfinden, indem ich den Namen dieses Verzeichnisses zur Verfügung stelle. z.B. Nehmen wir an, wir haben 3 Verzeichnisse A, B, C und jedes hat 20, 30, 40 Teil-R-Dateien. Also ich bin daran interessiert, einen hadoop Job zu schreiben, die Dateien/Datensätze in jedem Verzeichnis zählt also ich unten formatierte TXT-Datei eine Ausgabe will:Wie zähle ich die Anzahl der Dateien in einem bestimmten Verzeichnis in hadoop?
A ist mit 20 Aufzeichnungen
B 30 Datensätze ist mit
C wird mit 40 Platten
Diese alle Verzeichnisse vorhanden sind in HDFS.
warum wollen Sie es, einen Job zu erstellen, können Sie nicht einfach für sie ein Java-Programm schreiben? – ViKiG
Einfache Version: 'hadoop fs -ls/dir | grep part-0 * | wc -l' –