2012-03-27 3 views
1

Ich habe irgendwo gelesen, dass Hadoop eine integrierte Unterstützung für die Komprimierung und Dekomprimierung hat, aber ich denke, es geht um die Ausgabe von Mappern (durch Festlegen einiger Eigenschaften)?Ist die Komprimierung/Dekomprimierung von GZIP-Daten in Hadoop/PIG transparent?

Ich frage mich, ob es bestimmte PIG Lade-/Speicherfunktionen gibt, die ich zum Lesen komprimierter Daten oder zum Ausgeben von Daten als komprimiert verwenden kann?

Antwort

6

Die PigStorage Griffe komprimierte Eingabe durch die Dateinamen der Prüfung:

  • * .bz2/* .bz - org.apache.pig.bzip2r.Bzip2TextInputFormat
  • Alles andere verwendet org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat - Diese o.a.h.mapreduce.TextinputFormat erweitert die .gz und flink umgehen kann wenn Sie Dateien installiert die Codecs

Ausgabe über einige Eigenschaften behandelt wird:

  • output.compression.enabled - true/false
  • output.compression.codec - der Klassenname des Codec zu verwenden (org.apache.hadoop.io.compress.GzipCodec für gzip)

Wenn Sie es das Gefühl oben bist, durch die PigStorage.java Graben sein kann von Interesse für Sie

+0

http://my.safaribooksonline.com/book/-/9781449317881/8dot-making-pig-fly/id2907215 gibt auch einige weitere Details über die Zwischenkompression –

Verwandte Themen