2015-09-03 5 views
5

Wir haben eine Anforderung, wo wir ORC Dateien appedend müssen. Ich habe versucht, es zu googeln, aber kein Ergebnis. Auch org.apache.hadoop.hive.ql.io.orc.WriterImpl von ORC haben nicht die Append-API. Gibt es eh die ORC-Dateien anhängen? (Insbesondere mit JAVA)Wie Sie ORC-Datei anhängen

Antwort

4

ORC Datendateien subdivised in unabhängigen Streifen; Jeder Streifen wird in einem einzigen atomaren Schritt erzeugt. Details siehe the official documentation.

Ich glaube nicht, dass Sie direkt an eine vorhandene Datei anhängen können. Das würde bedeuten, dass ein korrupter Streifen (daher eine beschädigte Datei) im Falle eines Auftragsabsturzes während des Schreibens zurückbleibt.

Aber Sie können

  • erstellen Sie eine neue ORC-Datendatei pro Minderer
  • dann „verketten“ diese Daten (die 1..N Streifen je auf tatsächliche Datenvolumen vs. orc.stripe.size Eigenschaft enthalten wird) Dateien - und vorhandene Datei (en) - mit Hive V0.14 and above