2016-05-04 9 views
-5
Migrating the data from Legacy database [~50 TB] to New Database. 
Migrating data from staging database[ 5GB per 1 hr] to New Database. 

Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data) 

Bitte stellen Sie die Architektur mit Hadoop-Ökosystem zur Verfügung.Wie löst man den folgenden Anwendungsfall mit Hadoop?

Antwort

1

Ich nehme an, Sie können Cloudera Manager und CDH (Hadoop).

ETL: Sqoop 2 SQL: Bienenstock & Impala Data Mining: Spark.

Sqoop können leicht Daten aus Ihrer alten Datenbank laden, um Hadoop (einfachen Befehl)

Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table 

Danach werden Sie HUE verwenden können (Web-Interface SQL, Metadaten, Workflow zu schreiben), um Ihre Daten abzufragen.

Impala ist eine MPP-Datenbank von Cloudera.

Es ist leicht zu skalieren.

Zum einen für von Konzept zu beweisen, können Sie Ihre Cluster von 4 Knoten starten:

Master-Knoten (* 1): 64G Speicher Slave-Knoten (* 3): 32G Speicher

kleine Lastmenge Daten in den Datensee. Wenn Sie fertig sind, können Sie die Daten skalieren und weitere Knoten in den Datensee einfügen.

Verwandte Themen