Ist die Komprimierung/Dekomprimierung von GZIP-Daten in Hadoop/PIG transparent?

Ich habe irgendwo gelesen, dass Hadoop eine integrierte Unterstützung für die Komprimierung und Dekomprimierung hat, aber ich denke, es geht um die Ausgabe von Mappern (durch Festlegen einiger Eigenschaften)?Ist die Komprimierung/Dekomprimierung von GZIP-Daten in Hadoop/PIG transparent?

Ich frage mich, ob es bestimmte PIG Lade-/Speicherfunktionen gibt, die ich zum Lesen komprimierter Daten oder zum Ausgeben von Daten als komprimiert verwenden kann?

Quelle

2012-03-27 kee

Die PigStorage Griffe komprimierte Eingabe durch die Dateinamen der Prüfung:

* .bz2/* .bz - org.apache.pig.bzip2r.Bzip2TextInputFormat
Alles andere verwendet org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat - Diese o.a.h.mapreduce.TextinputFormat erweitert die .gz und flink umgehen kann wenn Sie Dateien installiert die Codecs

Ausgabe über einige Eigenschaften behandelt wird:

output.compression.enabled - true/false
output.compression.codec - der Klassenname des Codec zu verwenden (org.apache.hadoop.io.compress.GzipCodec für gzip)

Wenn Sie es das Gefühl oben bist, durch die PigStorage.java Graben sein kann von Interesse für Sie

Quelle

2012-03-27 20:36:41

http://my.safaribooksonline.com/book/-/9781449317881/8dot-making-pig-fly/id2907215 gibt auch einige weitere Details über die Zwischenkompression –

Ist die Komprimierung/Dekomprimierung von GZIP-Daten in Hadoop/PIG transparent?

Antwort

Verwandte Themen