Wie exportiert man eine 2 TB-Tabelle von einer RDS-Instanz nach S3 oder Hive?

Ich versuche, eine gesamte Tabelle von meiner RDS-Instanz (MySQL 5.7) zu entweder S3 (CSV-Datei) oder Hive zu migrieren.Wie exportiert man eine 2 TB-Tabelle von einer RDS-Instanz nach S3 oder Hive?

Die Tabelle enthält insgesamt 2 TB Daten. Und es hat eine BLOB-Spalte, die eine Zip-Datei speichert (normalerweise 100 KB, aber es kann 5 MB erreichen).

Ich habe einige Tests mit Spark, Sqoop und AWS DMS gemacht, hatte aber Probleme mit allen von ihnen. Ich habe keine Erfahrung damit, Daten von RDS mit diesen Tools zu exportieren, daher schätze ich jede Hilfe sehr.

Welcher wird für diese Aufgabe am meisten empfohlen? Und welche Strategie ist Ihrer Meinung nach effizienter?

Quelle

2017-10-02 Eduardo Macedo

Sie können die RDS-Daten mithilfe der AWS-Pipeline in S3 kopieren. Hier ist eine example, die genau das tut.

Sobald Sie den Dump in S3 im CSV-Format erstellt haben, ist es einfach, die Daten mit Funke zu lesen und diese als Hive-Tabelle zu registrieren.

val df = spark.read.csv("s3://...") 
df.saveAsTable("mytable") // saves as hive

Quelle

2017-10-02 14:01:21

Wie exportiert man eine 2 TB-Tabelle von einer RDS-Instanz nach S3 oder Hive?

Antwort

Verwandte Themen