Ich habe eine Reihe von CSV-Dateien in Form eines täglichen Feed von einem anderen System kommen.Entfernen von Header und Leerzeilen aus einer CSV-Datei
Ich muss die Kopfzeile und einige optional vorhandene Leerzeilen aus den Dateien entfernen, bevor Sie sie auf HDFS laden und eine externe Tabelle darüber erstellen.
Zur Zeit habe ich einen zweistufigen Prozess, der den Header und Leerzeichen entfernen funktioniert, bevor die Datei auf HDFS setzen
//remove blank lines
sed -i '/^\s*$/d' file_20160802.csv
//remove header
sed -i 1d file_20160802.csv
//put file on HDFS
hdfs dfs -put file_20160802.csv /raw/abc/20160802/
Gibt es eine Weise, die ich die beiden Schritte ohne die Erstellung alle temporären Dateien kombinieren?
Vielen Dank @sat !! –