Ich baue gerade einen Datensee innerhalb von S3 und habe erfolgreich Daten von einer MySQL DB nach S3 mit DMS verschoben. In DMS wähle ich die Option 'Bestehende Daten migrieren und laufende Änderungen replizieren'. Ich habe die Daten in csv umgewandelt, aber in Zukunft werde ich wahrscheinlich Parkett wählen. Diese Methode erstellt eine initiale CSV-Datei, die alle Rohdaten aus den Datenbanktabellen enthält. Anschließend werden nachfolgende CSV-Dateien mit Einfügungen, Löschungen und Aktualisierungen erstellt.ETL-Daten von Amazon DMS zu S3 zu Redshift
Jetzt suche ich nach einer Strategie, um die Daten von S3 in Redshift zu kopieren. Ich suche nach einer Strategie, um die Massendaten zu kopieren und die fortlaufenden Änderungen von S3 in Redshift zu kopieren. Ich werde wahrscheinlich viele dieser Daten zusammenfassen und zusammenfassen müssen. Vorzugsweise verwende ich AWS Glue, die Python verwendet. Dieser ETL-Prozess muss in S3 aus CSV-Dateien lesen und Dateien ignorieren, die bereits verarbeitet wurden.
Wie kann ich dies erleichtern? Irgendwelche Ideen sind willkommen. Im Idealfall hoffe ich auf einige Python- (oder Java-) Skripte, die genau den beschriebenen Prozess ausführen.
Danke.
warum haben Sie DMS aufgebaut aus mysql-> S3 gehen? anstatt mysql-> redshift? d. h. alle Daten laden, um den "Staging" -Bereich rot zu schalten, und dann Ihre Datentransformationen direkt auf Rotverschiebung ausführen? –
Wie ich erwähnt habe, baue ich einen Datensee. Die Rohdaten müssen in S3 bleiben, dem eigenen See. – ChrisK