2016-06-29 7 views
1

Ich habe JSON-Dateien, Volumen ist ca. 500 TB. Ich habe den kompletten Satz in das Hive Data Warehouse geladen.hadoop - Validieren Json Daten in Stocklager

Wie würde ich validate or test the data, die in Stocklager geladen wurde. Was sollte mein testing strategy sein?

Der Kunde möchte, dass wir die JSON-Daten validieren. Ob die in den Stock geladenen Daten korrekt sind oder nicht. Gibt es etwas Fräulein? Wenn ja, welches Feld war es?

Bitte helfen.

+0

, was die Testbereiche Ihrer Planung decken können Sie es bitte in mehr erklären Details –

+0

Ich habe meine Frage aktualisiert .. Bitte überprüfen Sie – Ajay

+0

Durchführung insgesamt Test wird nicht mit diesem Datensatz möglich sein, und Sie müssen für Stichprobenprüfung gehen. Sie können einige Hive-Abfragen schreiben und verifizieren. –

Antwort

0

Wie werden Ihre Daten in Hive-Tabellen gespeichert?

Eine Option besteht darin, eine Hive-UDF-Funktion zu erstellen, die die JSON-Zeichenfolge empfängt und die Daten validiert und eine andere Zeichenfolge mit der Fehlermeldung oder eine leere Zeichenfolge zurückgibt, wenn die JSON-Zeichenfolge korrekt formatiert ist.

ist hier ein Hve UDF-Tutorial: http://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html

Mit der Funktion Hive UDF an Ort und Stelle können Sie executequeries wie:

select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != "";