Standardmäßig verwenden neuere Spark-Versionen die Komprimierung beim Speichern von Textdateien. Zum Beispiel:Spark: saveAsTextFile ohne Komprimierung
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output")
werden die Dateien in .deflate
Format erstellen. Es ist ziemlich einfach, den Kompressionsalgorithmus zu ändern, z. für .gzip
:
import org.apache.hadoop.io.compress._
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output", classOf[GzipCodec])
Aber gibt es eine Möglichkeit, um speichern RDD als reine Textdateien, das heißt ohne Kompression?
Versuchen Sie, 'mapred.output.compress' auf' false' zu setzen – mrsrinivas