2016-09-14 2 views
0

Ich habe einen Schwein Code geschrieben, wo ich eine Spalte mit mehreren Strings übereinstimmen möchte. Z.B.FEHLER 2998: Unbehandelter interner Fehler. null - Apache Pig

A = FOREACH A1 GENERATE 
    c1, c2, c3, 

--i have substituted junk values-- 

case 
when ( (
     column_name matches '.*abc.*' 
    OR column_name matches '.*sdf.*' 
    OR column_name matches '.*bcd.*' 
    OR column_name MATCHES '.*def.*' 
    OR column_name MATCHES '.*efg.*' 
    OR column_name MATCHES '.*ggg.*' 
    OR column_name MATCHES '.*ghi.*' 
    OR column_name MATCHES '.*hij.*' 
    OR column_name MATCHES '.*ijk.*' 
    OR column_name MATCHES '.*jkl.*' 
    OR column_name MATCHES '.*klm.*' 
    OR column_name MATCHES '.*lmn.*' 
    or column_name matches '.*mno.*' 
    or column_name matches '.*mnb.*' 
    or column_name matches '.*opq.*' 
    or column_name matches '.*pqr.*' 
    or column_name matches '.*qrs.*' 
    or column_name matches '.*stuv.*' 
    or column_name matches '.*tuvw.*' 
    or column_name matches '.*wxy.*' 
    or column_name matches '.*tuvwx.*' 
    or column_name matches '.*xyz.*' 
    . 
    . 
    . 
    . 
    . 
    ) then 1 
      else 0 as c4; 

Es wird beobachtet, dass, wenn die Anzahl der OR Spalten_Name SPIELE ‚---‘ Aussagen über 672 gehen, mit dem Fehler laufen der Schwein-Skript fehlschlägt:

Pig Stack Trace 
--------------- 
ERROR 2998: Unhandled internal error. null 

java.lang.StackOverflowError 
     at java.util.zip.Deflater.ensureOpen(Deflater.java:543) 
     at java.util.zip.Deflater.deflate(Deflater.java:426) 
     at java.util.zip.Deflater.deflate(Deflater.java:352) 
     at java.util.zip.DeflaterOutputStream.deflate(DeflaterOutputStream.java:251) 
     at java.util.zip.DeflaterOutputStream.write(DeflaterOutputStream.java:211) 
     at java.io.ObjectOutputStream$BlockDataOutputStream.drain(ObjectOutputStream.java:1876) 
     at java.io.ObjectOutputStream$BlockDataOutputStream.write(ObjectOutputStream.java:1840) 
     at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1533) 
     at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1508) 
     at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431) 
     at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177) 
     at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347) 
     at java.util.ArrayList.writeObject(ArrayList.java:742) 
     at sun.reflect.GeneratedMethodAccessor3.invoke(Unknown Source) 
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
     at java.lang.reflect.Method.invoke(Method.java:606) 
     at java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:988) 
     at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1495) 
     at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431) 
     at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177) 
     at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1547) 
     at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1508) 
     at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431) 
     at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177) 
     at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347) 
     at java.util.ArrayList.writeObject(ArrayList.java:742) 
     at sun.reflect.GeneratedMethodAccessor3.invoke(Unknown Source) 
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
     at java.lang.reflect.Method.invoke(Method.java:606) 
     at java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:988) 
     at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1495) 
     at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431) 
     at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177) 
     at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1547) 
     at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1508) 
     at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431) 
     at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177) 
     at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347) 
     at java.util.ArrayList.writeObject(ArrayList.java:742) 
     at sun.reflect.GeneratedMethodAccessor3.invoke(Unknown Source) 
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 

Bitte vorschlagen eine Lösung oder eine Alternative, um diese Anforderung zu erfüllen.

Antwort

0

Sie könnten eine benutzerdefinierte Filterfunktion 1 schreiben, in der Sie mehr Kontrolle über RAM-Verbrauch haben. Es ist durchaus möglich, dass Sie nicht RegEx, sondern eine Teilstringsuche benötigen.

+0

UPD: Sie generieren, nicht filtern, also sollte es eine Eval-Funktion sein https://pig.apache.org/docs/r0.16.0/udf.html#eval-functions – patrungel

+0

Also, im Grunde muss ich ein schreiben UDF und suchen Sie den Spaltenwert (Teilstring) in der erforderlichen Menge von Werten wie ('abc | def | ghi | jkl | mno'). Ist das das richtige Verständnis @patrlung? – Suyog

+0

Dies ist zum Schreiben einer UDF geeignet, aber nicht zum Suchen nach Spaltenwerten in Ihrer Liste. zumindest habe ich den Eindruck, dass Sie nach Mustern _in_ Werten suchen. – patrungel