Unterstützt Hadoop-Streaming die neuen spaltenförmigen Speicherformate wie ORC und Parkett oder gibt es Frameworks auf Hadoop, mit denen Sie solche Formate lesen können?Streaming-Frameworks auf Hadoop, die ORC unterstützen, Parkett-Dateiformate
Antwort
Sie können HCatalog verwenden, um ORC-Datei zu lesen. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat
Es bietet Ihnen eine Abstraktion zum Lesen von ORC, Text, Sequenz, RC-Dateien. Ich bin mir nicht sicher, ob dort Parkett unterstützt wird. Wenn dies jedoch nicht sinnvoll erscheint, können Sie ORC-Aufzeichnungsleser in der Hive-Codebasis verwenden, um ORC-Dateien (ORCInputFormat, ORCOutputFormat) zu lesen.
Eher alte Nachrichten, aber ich hatte vor einiger Zeit damit zu kämpfen. Ich habe dafür keine Lösung gefunden, daher habe ich eine Reihe von Eingabe/Ausgabe-Formaten erstellt, die Avro- und Parkett-Dateien in/aus Nur-Text und JSON konvertieren. Es kann bei http://github.com/whale2/iow-hadoop-streaming gefunden werden. Es gibt keine ORC-Unterstützung, aber Avro und Parquet werden unterstützt. Hoffe, das hilft.
- 1. Hadoop-Installation auf Windows
- 2. Hadoop auf Windows-Server
- 3. Visual C++ 2010 Atomarten unterstützen?
- 4. Webserver, die FastCGI-Filter unterstützen
- 5. Hadoop oder Hadoop Streaming für MapReduce auf AWS
- 6. Hadoop auf Windows Gebäude/Installationsfehler
- 7. Auf der Suche nach Online-Judge Engine, die Python unterstützen
- 8. Hadoop auf Cassandra-Datenbank
- 9. Säulenlager oben auf Hadoop?
- 10. Einfache Erstellung von Eigenschaften, die Indexierung in C# unterstützen
- 11. Welche Browser unterstützen die Schrifteinbettung?
- 12. Datei auf hadoop speichern
- 13. Geräte, die AllShare-Framework unterstützen
- 14. Hadoop auf Windows Building Error
- 15. 128-Bit-Ganzzahlen, die +, -, *,/und% im Intel C Compiler unterstützen?
- 16. Kann IIS ASP.NET und WAMP unterstützen, die PHP unterstützen, auf dem gleichen Server existieren?
- 17. Hat C++ abstrakte Array unterstützen Längen
- 18. Unterstützen statische Elemente die Speichereffizienz?
- 19. Mock-Objekte, die Verkettungsmethoden unterstützen
- 20. Kann teamcity die Planungsfunktion unterstützen?
- 21. Wird C++ 14 uneingeschränkte generische Funktionen unterstützen?
- 22. Warum soll C++ parametrischen Polymorphismus nicht unterstützen?
- 23. Hadoop-Installation auf Ubuntu, Hadoop-Datei VS Hortonworks oder Cloudera
- 24. Replikation auf Reduktionsniveau in Hadoop?
- 25. Java vs Python auf Hadoop
- 26. Parallel laufende MapReduce auf Hadoop
- 27. Was bedeutet solrcloud auf hadoop?
- 28. BindException in Hadoop auf EC2
- 29. wie die hadoop-hdfs-Protokolle unter/var/log/hadoop-hdfs
- 30. Kann Hadoop auf Nginx laufen?