ETL-Daten von Amazon DMS zu S3 zu Redshift

Ich baue gerade einen Datensee innerhalb von S3 und habe erfolgreich Daten von einer MySQL DB nach S3 mit DMS verschoben. In DMS wähle ich die Option 'Bestehende Daten migrieren und laufende Änderungen replizieren'. Ich habe die Daten in csv umgewandelt, aber in Zukunft werde ich wahrscheinlich Parkett wählen. Diese Methode erstellt eine initiale CSV-Datei, die alle Rohdaten aus den Datenbanktabellen enthält. Anschließend werden nachfolgende CSV-Dateien mit Einfügungen, Löschungen und Aktualisierungen erstellt.ETL-Daten von Amazon DMS zu S3 zu Redshift

Jetzt suche ich nach einer Strategie, um die Daten von S3 in Redshift zu kopieren. Ich suche nach einer Strategie, um die Massendaten zu kopieren und die fortlaufenden Änderungen von S3 in Redshift zu kopieren. Ich werde wahrscheinlich viele dieser Daten zusammenfassen und zusammenfassen müssen. Vorzugsweise verwende ich AWS Glue, die Python verwendet. Dieser ETL-Prozess muss in S3 aus CSV-Dateien lesen und Dateien ignorieren, die bereits verarbeitet wurden.

Wie kann ich dies erleichtern? Irgendwelche Ideen sind willkommen. Im Idealfall hoffe ich auf einige Python- (oder Java-) Skripte, die genau den beschriebenen Prozess ausführen.

Danke.

Quelle

2017-11-12 ChrisK

warum haben Sie DMS aufgebaut aus mysql-> S3 gehen? anstatt mysql-> redshift? d. h. alle Daten laden, um den "Staging" -Bereich rot zu schalten, und dann Ihre Datentransformationen direkt auf Rotverschiebung ausführen? –

Wie ich erwähnt habe, baue ich einen Datensee. Die Rohdaten müssen in S3 bleiben, dem eigenen See. – ChrisK

Empfehlen Sie die Einrichtung von AWS Glue, um das S3-Ziel automatisch zu beobachten und die CSV in Parquet umzuwandeln. - http://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html - https://github.com/awslabs/aws-glue-samples

Dann Amazon Redshift Spectrum verwenden, um selektiv zu laden und/oder die Daten abfragen, direkt aus dem Datum See. - http://docs.aws.amazon.com/redshift/latest/dg/c-getting-started-using-spectrum.html

Quelle

2017-11-13 15:28:51

Dies ist eine gute Antwort, stellen Sie nur sicher, dass Sie wirklich einen Datensee benötigen, da Sie signifikante Komplikationen und Kosten über eine Rotverschiebungs-zentrische Lösung hinzufügen werden –

Mit Lambda Funktionen und Trigger, können Sie Setup so dass RedshiftCluster automatisch geladen wird, wenn eine Datei auf S3 hochgeladen.

finden unter Link

A Zero-Administration Amazon Redshift Database Loader

Quelle

2017-11-13 20:50:25 Praveen

ETL-Daten von Amazon DMS zu S3 zu Redshift

Antwort

Verwandte Themen