2016-08-11 6 views
0

Ich habe Daten in avro Format gespeichert. Eines der Felder jedes Datensatzes (zB array_field) ist ein Array. Verwenden von Pig Wie erhalte ich nur die Datensätze, die Arrays mit beispielsweise length(array_field) >= 2 enthalten, und speichere die Ergebnisse dann in avro-Dateien unter Verwendung des gleichen Schemas wie die ursprüngliche Eingabe?Filter nach Länge des Arrays in Schwein

Antwort

1

Dies sollte unten mit so etwas wie Code machbar sein:

A = LOAD '$INPUT' USING AvroStorage(); 
B = FILTER A BY SIZE(array_field) >= 2; 
STORE B INTO '$OUTPUT' USING AvroStorage('schema', '<schema_here>'); 
Verwandte Themen