2014-04-03 2 views

Antwort

1

Sie können HCatalog verwenden, um ORC-Datei zu lesen. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

Es bietet Ihnen eine Abstraktion zum Lesen von ORC, Text, Sequenz, RC-Dateien. Ich bin mir nicht sicher, ob dort Parkett unterstützt wird. Wenn dies jedoch nicht sinnvoll erscheint, können Sie ORC-Aufzeichnungsleser in der Hive-Codebasis verwenden, um ORC-Dateien (ORCInputFormat, ORCOutputFormat) zu lesen.

1

Eher alte Nachrichten, aber ich hatte vor einiger Zeit damit zu kämpfen. Ich habe dafür keine Lösung gefunden, daher habe ich eine Reihe von Eingabe/Ausgabe-Formaten erstellt, die Avro- und Parkett-Dateien in/aus Nur-Text und JSON konvertieren. Es kann bei http://github.com/whale2/iow-hadoop-streaming gefunden werden. Es gibt keine ORC-Unterstützung, aber Avro und Parquet werden unterstützt. Hoffe, das hilft.

Verwandte Themen