Azure Data Lake Store - JSON in CSV konvertieren

Wir haben JSON-Dateien der Größe ~ 100 GB in der Azure Data Lake Store. Wir müssen sie in CSV-Dateien konvertieren und in einem anderen Ordner in demselben azure-Data-Lake-Store speichern. Welche Optionen gibt es?Azure Data Lake Store - JSON in CSV konvertieren

Quelle

2017-03-21 venkatesh sivalingam

Sie haben ein paar Möglichkeiten dafür. Dies ist typischerweise ein einfacher zweistufiger Prozess: extrahieren und ausgeben.

A. Sie können dazu entweder einen ADLA/U-SQL-Job ausführen. Hier ist ein Beispiel für JSON Extraktor in U-SQL https://github.com/Azure/usql/tree/master/Examples/DataFormats/Microsoft.Analytics.Samples.Formats

B. andere Wahl ist ein HDInsight Cluster erstellen, um die Daten zu transformieren. Sie können die von Ihnen gewählte Anwendung verwenden. Hier ist ein Beispiel für jemand in PIG: https://acadgild.com/blog/converting-json-into-csv-using-pig/

Quelle

2017-03-21 16:16:24

Ich habe dies mit Azure Data Factory versucht und es ist einfach mit Null-Codierung. Die Quelle und die Senke waren beide der ADLS.Nichts in der Pipeline mit einem einfachen zu ändern Eins-zu-Eins-Zuordnung. Wir haben uns nicht um die Leistung gekümmert, da es sich um einen Batch-Job für uns handelt und unten ist eine schnelle Statistik über die Leistung.

> Data Read: 42.68 GB Data Written: 12.97 GB Data volume: 42.68 GB Rows: 
> 54520950 Throughput: 3.97 MB/s Billed duration for data movement: 
> 03:03:41

Quelle

2017-03-26 17:34:58

Es wäre toll, wenn Sie einige Details zu Ihren Schritten posten, da dies für andere Leute, die auf dieser Seite ankommen, wirklich nützlich wäre. Wie wäre es mit ein paar Details zu der Quelle und der Senke, die du benutzt hast, oder gab es etwas Spezielles, das du in der Pipeline machen musstest? Sie könnten uns sogar den JSON für die Eingabe-/Ausgabe-Datasets anzeigen, wie in [diesem aktuellen Beispiel] (http://stackoverflow.com/questions/39894991/copy-from-onprem-sql-server-to-documentdb-using-custom) -activity-in-adf-Pipeline). Ich wäre auch daran interessiert, wie ADF mit dem Band zurechtkam. Nochmals, war etwas Besonderes erforderlich? – wBob

Azure Data Lake Store - JSON in CSV konvertieren

Antwort

Verwandte Themen