I habe eine Struktur wie in dem Verzeichnis HDFS folgt,Wie bekomme ich den absoluten Pfad der Endverzeichnisse?
/data/current/population/{p_1,p_2} /data/current/sport /data/current/weather/{w_1,w_2,w_3} /data/current/industry
die Ordner population, sport, weather & industry
entsprechen jeweils unterschiedliche Datenmengen. Die Endordner, z. B. p_1
& p_2
, beziehen sich auf andere Datenquellen, falls verfügbar.
Ich arbeite an PySpark-Code, die auf diesen A_1, A_2, B, C_1, C_2, C_3 & D
Ordnern (die Endordner) arbeiten. Wie erhalten Sie einen Pfad wie /data/current/
zu Ihrem Code, wie extrahieren Sie die absoluten Pfade nur der Endordner?
Der Befehl hdfs dfs -ls -R /data/current
gibt die folgende Ausgabe
/data/current /data/current/population /data/current/population/p_1 /data/current/population/p_2 /data/current/sport /data/current/weather /data/current/weather/w_1 /data/current/weather/w_2 /data/current/weather/w_3 /data/current/industry
Aber ich will mit den absoluten Pfade von End-Ordner landen. Meine Ausgabe sollte wie folgt aussehen
/data/current/population/p_1 /data/current/population/p_2 /data/current/sport /data/current/weather/w_1 /data/current/weather/w_2 /data/current/weather/w_3 /data/current/industry
-Danke im Voraus