2016-10-25 3 views
1

Ich habe Sqoop verwendet, um Daten von Oracle zu Hadoop aufzunehmen und es hat gut funktioniert. Es dauerte nur 4 Minuten, um 86 Millionen Datensätze von Oracle zur Hive-Tabelle zu bringen, ohne Partitionen auf Sqoop zu verwenden. Kann jemand einige Details über Oracle Hadoop-Anschlüsse angeben, wird es besser als Sqoop?Oracle Hadoop Connectors vs Sqoop

+0

Gemäß Oracle-Dokumentation: Oracle Loader for Hadoop ist ein MapReduce-Programm, das auf dem Hadoop-Cluster ausgeführt wird, um die Daten vorzuverarbeiten. Es kann Daten in Vorbereitung auf die Auslastung partitionieren, sortieren und in Oracle-Datentypen konvertieren. Dadurch werden einige Datenbankzyklen auf Hadoop ausgelagert, sodass während der Ladeoperation weniger Datenbank-CPU verwendet wird. Im Online-Modus werden die vorverarbeiteten Daten direkt in die Datenbank geladen. Im Offline-Modus schreibt Oracle Loader for Hadoop die vorverarbeiteten Daten als Datenpump-Dateien auf HDFS. Es gibt zwei Ladeoptionen im Online-Modus, JDBC und Direct-Pfad. –

Antwort

0

Die meisten Connectors hätten die gleiche Leistung, da Sie am Ende des Workflows mehrere MapReduce-Jobs eingerichtet haben, die die Hauptrolle bei der Gesamtleistung spielen.

Oracle bietet eine Reihe von verschiedenen Anschlüssen für den Hive den Zugriff auf und man konnte einen schönen Überblick über Standardlösungen überprüfen, aber ich bezweifle, dass auf ganz zum Schluss werden Sie deutliche Performance-Unterschiede erwarten, dass andere Sie in Sqoop dann sehen:

https://docs.oracle.com/cd/E37231_01/doc.20/e36961/start.htm#BDCUG119

Sqoop ist ein generisches Tool zum Arbeiten mit den relationalen Datenbanken von Hadoop Realm. Es ist nicht auf Oracle beschränkt. Außerdem ist es mit anderen Hadoop-Lösungen wie Oozie kompatibel, um komplizierte Workflows zu erstellen, was es zu einem guten Kandidaten für andere Arten von Connectors macht.

Persönlich bevorzuge ich Sqoop für Hadoop-gesteuerte Import-Export-Operationen und Connector-Ansatz für die Abfrage der Daten in Hadoop.

0

Sqoop wird eine Standard-JDBC-Verbindung nutzen. Oracles Connector funktioniert mit einer in die shoop-Verbindung integrierten Fastloader/Fastexport-Klasse. Es sollte schneller sein als Sqoop.

Verwandte Themen