2017-06-06 4 views
0

Ich habe einige Dateien in HDFS in parquet Format. Ich möchte diese Dateien in eine einzige große Datei zusammenführen.Mischen Sie zwei Parkett-Dateien in HDFS

Wie kann ich das tun?

Ich habe etwas wie unten aber für Textdateien getan.

hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file 

aber nicht in der Lage, das gewünschte Ergebnis in parquet Format zu erreichen.

Wie kann ich meine Anforderung erfüllen?

Antwort

0

Es ist nicht möglich, parquet Dateien mit hdfs-Befehlen zusammenzuführen.

Es gibt eine parquet-tools library, die Ihnen helfen kann, die merging von parquet Dateien zu erreichen. Der Befehl sollte

java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file> 
+0

Ich denke, 'Parkett-Tools 'kommt in diesen Tagen mit Cloudera vorinstalliert. – philantrovert

0

Das gleiche Werkzeug kann mehrere Dateien zusammenführen verwendet werden innerhalb der Hadoop nur $ hadoop jar java statt $ verwenden -jar vor ./parquet-tools

Verwandte Themen