Ich benutze Funken und ich habe verschiedene Arten von komprimierten Dateien auf hdfs (zip, gzip, 7zip, tar, bz2, tar.gz etc). Könnt mir jemand bitte den besten Weg zur Dekompression mitteilen? Für etwas Kompression könnte ich CompressionCodec verwenden. Aber es unterstützt nicht alle Kompressionsformat. Für Zip-Datei habe ich einige Suche und fand, dass ZipFileInputFormat verwendet werden könnte. aber ich konnte kein Glas dafür finden.dekomprimieren von Dateien von hdfs in spark
0
A
Antwort
0
Für ein komprimiertes Format (ich weiß, dass es für tar.gz und zip gilt, nicht für die anderen getestet), können Sie die Dataframe-API direkt verwenden und es wird für Sie die Komprimierung übernehmen:
val df = spark.read.json("compressed-json.tar.gz")
+0
Hi @Ben oben funktioniert für TAR-Datei, aber nicht für ZIP-Dateien. Ich benutze Spark 1.6 mit Scala 2.10.2 –
Verwandte Themen
- 1. Spark Notwendigkeit von HDFS
- 2. Entpacken von .Snappy-Dateien in Hadoop HDFS?
- 3. Kann Dateien von HDFS in Spark nicht verwenden
- 4. Verwenden von Dateien aus HDFS in Apache Spark-
- 5. Zusammenführen von hdfs-Dateien
- 6. Flume + Spark - Speichern von DStream in HDFS
- 7. Übertragung von Dateien von ungesicherten hdfs zu gesicherten hdfs-Cluster
- 8. Laden von Daten aus HDFS -Spark Scala
- 9. Wie funktioniert Spark Partition (ing) auf Dateien in HDFS?
- 10. Komprimieren/Dekomprimieren von Ordnern und Dateien
- 11. Get hdfs Dateipfad in Spark
- 12. Spark iterate HDFS Verzeichnis
- 13. Spark: hdfs Cluster-Modus
- 14. Hochladen von Dateien in hadoop hdfs?
- 15. Kopieren von Dateien in HDFS Hadoop
- 16. Verwenden von Spark DataFrame zum Laden von Daten aus HDFS
- 17. Spark HiveContext: Tabellen mit mehreren Dateien auf HDFS
- 18. Dekomprimieren txt-Dateien in Python
- 19. Speichern von HDFS in MongoDB mit Spark-DataFrame
- 20. Gibt es eine Möglichkeit, von Parkett-Dateien in hdfs in SqlContext von Mobius zu lesen?
- 21. Slow Parquet Schreiben in HDFS mit Spark
- 22. Dekomprimieren von GZip in Haskell
- 23. Abfrage hdfs mit Spark Sql
- 24. Dekomprimieren Sie .deflate-Dateien als Text in HDFS und kopieren Sie das Ergebnis nach local
- 25. Dekomprimieren von Zip
- 26. Join zwei Datendateien in HDFS mit Spark?
- 27. Kopieren und entpacken von S3 nach HDFS
- 28. Rekursives Überwachen eines HDFS-Verzeichnis-Spark-Streams
- 29. Kann keine Datei von HDFS mit Spark lesen
- 30. Schreiben von Dateien in hdfs in C++ (libhdfs)
Sie können Ihr eigenes Eingabeformat und Plattenleser in Java und importieren in scala schreiben. https://gist.github.com/jteso/1868049 –
[zip, 7zip, tar sind * Archive *, nicht unbedingt "komprimiert"] (http://superuser.com/questions/173756/which-is-more- efficient-tar-oder-zip-compression-what-is-the-difference-between wie die von BZip2 und Gzip (gz und gzip sind die gleichen ... tar.gz ist ein tar-Archiv, das komprimiert ist). Wie auch immer, BZip2 ist die beste Option in HDFS http://comphadoop.weebly.com/index.html –