Wir haben JSON-Dateien der Größe ~ 100 GB in der Azure Data Lake Store. Wir müssen sie in CSV-Dateien konvertieren und in einem anderen Ordner in demselben azure-Data-Lake-Store speichern. Welche Optionen gibt es?Azure Data Lake Store - JSON in CSV konvertieren
Antwort
Sie haben ein paar Möglichkeiten dafür. Dies ist typischerweise ein einfacher zweistufiger Prozess: extrahieren und ausgeben.
A. Sie können dazu entweder einen ADLA/U-SQL-Job ausführen. Hier ist ein Beispiel für JSON Extraktor in U-SQL https://github.com/Azure/usql/tree/master/Examples/DataFormats/Microsoft.Analytics.Samples.Formats
B. andere Wahl ist ein HDInsight Cluster erstellen, um die Daten zu transformieren. Sie können die von Ihnen gewählte Anwendung verwenden. Hier ist ein Beispiel für jemand in PIG: https://acadgild.com/blog/converting-json-into-csv-using-pig/
Ich habe dies mit Azure Data Factory versucht und es ist einfach mit Null-Codierung. Die Quelle und die Senke waren beide der ADLS.Nichts in der Pipeline mit einem einfachen zu ändern Eins-zu-Eins-Zuordnung. Wir haben uns nicht um die Leistung gekümmert, da es sich um einen Batch-Job für uns handelt und unten ist eine schnelle Statistik über die Leistung.
> Data Read: 42.68 GB Data Written: 12.97 GB Data volume: 42.68 GB Rows:
> 54520950 Throughput: 3.97 MB/s Billed duration for data movement:
> 03:03:41
- 1. Azure Data Lake: Verschlüsselung
- 2. Integrieren von Azure CDN mit Azure Data Lake Store
- 3. Azure Data Lake Alle Elemente
- 4. Azure Data Lake-Autorisierung
- 5. U-SQL mit Python zum Konvertieren von JSON zu CSV in Azure Data Lake speichern
- 6. Azure Batch-Unterstützung für verknüpften Data Lake Store-Service
- 7. Azure Data Lake Store erstellen Ordner über C# -Skript
- 8. Azure Data Lake Store - Fehler beim Lesen von Datei
- 9. U-SQL-Cursor in Azure Data Lake
- 10. Autorisierungsheader für WebHDFS mit Azure Data Lake
- 11. Laden Sie Bilder auf Data Lake Store mit u sql
- 12. Wie verwende ich Azure Data Lake Store als Eingabedatei für Azure ML?
- 13. Daten Aufbewahrungsrichtlinien in Data Lake
- 14. Wie wird Azure Data Lake Storage mit Azure ML verbunden?
- 15. Wie zu behandeln oder Architektur, inkrementelle Datenaufnahme in Azure Data Lake Store?
- 16. Wie lade ich eine Datei per SSIS in den Azure Data Lake Store hoch?
- 17. Können wir in Data Lake Daten in Azure Storage ausgeben?
- 18. Optimieren Sie für den maximalen Parallelisierungsgrad in Azure Data Lake
- 19. Verschieben einer DocumentDB-Sammlung in den Azure Data Lake-Speicher
- 20. HDInsight Spark-Cluster - kann keine Verbindung zu Azure Data Lake Store herstellen
- 21. Wie fügt man dem Dateinamen die Datetime hinzu, die von Data Factory in Azure Data Lake Store veröffentlicht wird?
- 22. Azure Lake Store: fehlende Access-Control-Allow-Origin aus Antwortheader
- 23. CreateJob für Azure Data Lake Analytics von C#
- 24. Azure Data Lake-Speicher und Data Factory - Temporäre GUID-Ordner und Dateien
- 25. Konvertieren geschachtelten JSON in CSV
- 26. Können wir Snappy-Daten verwenden, um einen Datensatz in Azure Data Lake zu aktualisieren? ODER ist Azure Data Lake nur anhängen?
- 27. Convert DBF in CSV mit Azure Data Factory
- 28. Wie wird eine Nachricht von der Azure Service-Buswarteschlange an Azure Data Lake ausgelöst?
- 29. Azure Webjobs SDK - Kann ich eine Bindung/einen Trigger auf Azure Data Lake Files erstellen
- 30. Polybase über Data Lake - was ist der OAuth_2.0_Token_EndPoint?
Es wäre toll, wenn Sie einige Details zu Ihren Schritten posten, da dies für andere Leute, die auf dieser Seite ankommen, wirklich nützlich wäre. Wie wäre es mit ein paar Details zu der Quelle und der Senke, die du benutzt hast, oder gab es etwas Spezielles, das du in der Pipeline machen musstest? Sie könnten uns sogar den JSON für die Eingabe-/Ausgabe-Datasets anzeigen, wie in [diesem aktuellen Beispiel] (http://stackoverflow.com/questions/39894991/copy-from-onprem-sql-server-to-documentdb-using-custom) -activity-in-adf-Pipeline). Ich wäre auch daran interessiert, wie ADF mit dem Band zurechtkam. Nochmals, war etwas Besonderes erforderlich? – wBob