Ich habe Sqoop verwendet, um Daten von Oracle zu Hadoop aufzunehmen und es hat gut funktioniert. Es dauerte nur 4 Minuten, um 86 Millionen Datensätze von Oracle zur Hive-Tabelle zu bringen, ohne Partitionen auf Sqoop zu verwenden. Kann jemand einige Details über Oracle Hadoop-Anschlüsse angeben, wird es besser als Sqoop?Oracle Hadoop Connectors vs Sqoop
Antwort
Die meisten Connectors hätten die gleiche Leistung, da Sie am Ende des Workflows mehrere MapReduce-Jobs eingerichtet haben, die die Hauptrolle bei der Gesamtleistung spielen.
Oracle bietet eine Reihe von verschiedenen Anschlüssen für den Hive den Zugriff auf und man konnte einen schönen Überblick über Standardlösungen überprüfen, aber ich bezweifle, dass auf ganz zum Schluss werden Sie deutliche Performance-Unterschiede erwarten, dass andere Sie in Sqoop dann sehen:
https://docs.oracle.com/cd/E37231_01/doc.20/e36961/start.htm#BDCUG119
Sqoop ist ein generisches Tool zum Arbeiten mit den relationalen Datenbanken von Hadoop Realm. Es ist nicht auf Oracle beschränkt. Außerdem ist es mit anderen Hadoop-Lösungen wie Oozie kompatibel, um komplizierte Workflows zu erstellen, was es zu einem guten Kandidaten für andere Arten von Connectors macht.
Persönlich bevorzuge ich Sqoop für Hadoop-gesteuerte Import-Export-Operationen und Connector-Ansatz für die Abfrage der Daten in Hadoop.
Sqoop wird eine Standard-JDBC-Verbindung nutzen. Oracles Connector funktioniert mit einer in die shoop-Verbindung integrierten Fastloader/Fastexport-Klasse. Es sollte schneller sein als Sqoop.
- 1. Importieren von Daten aus Oracle mit sqoop
- 2. Netsuite Salesforce-Integration ESB vs Prebuilt Connectors
- 3. Sqoop Oracle Import erstellt keine Tabelle
- 4. Oracle 12c auf Oracle Linux 7 (AWS) zu Hadoop Knoten
- 5. Spark kann nicht neuAPIHadoopRDD mit MONGO-Hadoop-Connectors BSONFileInputFormat
- 6. SQOOP: Tabellenimportfehler
- 7. Incremental Sqoop von Oracle mit Bedingung HDFS
- 8. Datenimport von Oracle zu hdfs mit sqoop
- 9. JDBC - ORACLE Verbindung Timeout-Parameter für Sqoop
- 10. Sqoop Import Failiing
- 11. Sqoop - Datum-Zeitstempel
- 12. DB-Benchmarks: Cassandra vs. BigTable vs. Hadoop
- 13. Sqoop-Job kann nicht mit Hadoop Credential API arbeiten
- 14. Wie verschiebe ich Daten von RDBMS nach Hadoop ohne Sqoop?
- 15. Hadoop Datenaufnahme
- 16. Java vs Python auf Hadoop
- 17. Hadoop Immutable vs Datentyp veränderbar
- 18. Sqoop Fehler auf Datenabruf von Oracle Database unter Verwendung von Oracle Wallet
- 19. Sqoop Import immer
- 20. Plain vanilla Hadoop-Installation vs Hadoop-Installation mit Ambari
- 21. Hadoop-Installation auf Ubuntu, Hadoop-Datei VS Hortonworks oder Cloudera
- 22. Sqoop Import --password-Datei funktioniert nicht richtig in sqoop 1.4.4
- 23. Sqoop HBase-Import: java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily
- 24. Unterschied zwischen sqoop und TDCH
- 25. API/Connectors Bibliothek
- 26. Exportieren von RDBMS in Hadoop-kompatibles Format
- 27. Oracle, PDO_OCI vs OCI8
- 28. ZeroMQ vs Oracle Warteschlange
- 29. Oracle BLOB vs VARCHAR
- 30. Oracle SQL vs Oracle PL/SQL
Gemäß Oracle-Dokumentation: Oracle Loader for Hadoop ist ein MapReduce-Programm, das auf dem Hadoop-Cluster ausgeführt wird, um die Daten vorzuverarbeiten. Es kann Daten in Vorbereitung auf die Auslastung partitionieren, sortieren und in Oracle-Datentypen konvertieren. Dadurch werden einige Datenbankzyklen auf Hadoop ausgelagert, sodass während der Ladeoperation weniger Datenbank-CPU verwendet wird. Im Online-Modus werden die vorverarbeiteten Daten direkt in die Datenbank geladen. Im Offline-Modus schreibt Oracle Loader for Hadoop die vorverarbeiteten Daten als Datenpump-Dateien auf HDFS. Es gibt zwei Ladeoptionen im Online-Modus, JDBC und Direct-Pfad. –