Ich muss eine große Datenmenge von einer Oracle-Datenbank nach Hadoop verschieben, ohne die beiden Systeme zu verbinden. Ist es möglich, Daten von Oracle über Sqoop direkt in das lokale Dateisystem zu exportieren, ohne in HDFS zu importieren? Ich möchte in ORC exportieren und dann die Dateien nur über externe Festplatten auf den Hadoop-Cluster verschieben.Exportieren von RDBMS in Hadoop-kompatibles Format
Antwort
Sie können SQOOP in Ihrem Fall nicht verwenden. SQOOP wird in hadoop ausgeführt und verwendet JDBC, um eine Verbindung mit der DB herzustellen. Wenn sich Hadoop-Knoten nicht mit dem DB-Server verbinden können, können Sie ihn nicht verwenden.
ORC ist ein sehr spezielles Format, das von Hive verwendet wird. Sie müssen herausfinden, wie Sie Hive-Bibliotheken verwenden, um die ORC-Dateien außerhalb von Hadoop-Clustern zu erstellen, falls dies möglich ist.
Durch Ihre Einschränkungen werde ich vorschlagen, DB mit DB-Speichermöglichkeiten in eine CSV-Datei zu exportieren, die Datei zu komprimieren und dann in HDFS zu kopieren.
Wenn Sie beabsichtigen, Hive zu verwenden, können Sie LOAD die Textdatei in eine Tabelle laden, die zum Speichern der Daten mit ORC konfiguriert ist.
- 1. Hadoop: Lesen von ORC-Dateien und Einfügen in RDBMS?
- 2. Exportieren von Textdokument im Markdown-Format
- 3. AsciiMathML-Gleichungen in Excel-Format exportieren
- 4. Wie HTML-Seite in PDF-Format exportieren?
- 5. Exportieren von Daten aus Excel-Datei in ein anderes Format
- 6. Exportieren von Bericht in CSV-Format mit Reporting-Service?
- 7. Exportieren Threejs Szene zu Obj Format
- 8. RDBMS-Web-Service
- 9. RDBMS-Datenrelationslast
- 10. Migration von couchDB nach RDBMS
- 11. Defuzzifizierung Prozess von Fuzzy-Sets in RDBMS
- 12. Format von Tausenden, um Excel zu exportieren - Dynamische Berichte
- 13. Normalisieren oder Denormalisieren zum Speichern von Revisionsverläufen in einem RDBMS?
- 14. Exportieren der PowerShell-Ausgabe in eine Textdatei im tabulatorgetrennten Format
- 15. Exportieren der Orientdb Datenbankstruktur in einem „Führungsstil“ Format
- 16. Elasticsearch zum Indexieren von RDBMS-Daten
- 17. Welche Algorithmen verwenden RDBMS?
- 18. RDBMS Key Confusion
- 19. Über RDBMS Konzept
- 20. Exportieren von Datensätzen in verschiedenen Formaten
- 21. Scrapy Pipeline zu exportieren CSV-Datei im richtigen Format
- 22. Exportieren von Formschlüsseln in Blender
- 23. Exportieren von Modulen in Typoskript
- 24. Exportieren von Routen in Koa
- 25. Ist SparkSQL RDBMS oder NOSQL?
- 26. Gesamte Datenbank im Cypher-Format (ASCII-Text) exportieren?
- 27. Exportieren/Importieren von Json-Objekten in es6
- 28. Exportieren von Daten in Excel-Blatt
- 29. Merge RDBMS und NoSQL-Datenbank
- 30. Modellierung von Freunden und Followern in einem RDBMS
Ich stimme dem Vorschlag zu, ORC zu vermeiden - CSV, TSV oder ein anderes allgemeines neutrales Format, das Ihre Oracle-Datenbank für Zwischendateien erzeugen kann, vereinfacht das spätere Laden in Hadoop, wo Sie jedes geeignete Hadoop-Format verwenden können. –
Das einzige Problem mit CSV-Formaten ist, dass in den Daten möglicherweise Zeilenvorschübe vorhanden sind und wir versuchen, die Daten genau so zu erhalten, wie sie existieren. Ich kann mit Xml stecken bleiben, aber ich will wirklich nicht wegen seiner Größe. – Shawn
Sie können in Ihrer CSV-Datei verschiedene Zeilenvorschübe verwenden, wie "|", "@@", "^ A" oder was auch immer und dasselbe für Spaltenbegrenzer. Das Problem besteht darin, dass nicht alle Komponenten in den Tools hadoop und DB dunps die Angabe dieser Parameter ermöglichen und Sie Ihren eigenen Writer/Reader implementieren müssen. In der Struktur können Sie beide Parameter angeben, wenn Sie die Tabelle erstellen. – RojoSam