Ich versuche, aus geschachtelten JSON für Millionen von Zeilen (5 TB + Tabelle) einige Werte zu erhalten. Was ist der effizienteste Weg, dies zu tun? HierHive: Parsen von JSON
ein Beispiel:
{"country":"US","page":227,"data":{"ad":{"impressions":{"s":10,"o":10}}}}
ich diese Werte aus dem oben JSON müssen:
Country Page impressions_s impressions_o
--------- ----- ------------- --------------
US 2 10 10
Dies ist Hive der json_tuple Funktion, ich bin nicht sicher, ob dies die beste Funktion ist. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-getjsonobject