Ich habe eine Menge Daten in Dateien, die in Amazon S3 gespeichert sind, und ich plane, sie zu verwenden, um einen Datentresor in Redshift zu erstellen. Meine erste Frage ist, wenn der richtige Ansatz ist, die DV-und Data Marts alle in Redshift zu bauen oder wenn ich die S3 als meine Data Lake betrachten und nur die Data Marts in Redshift haben soll?Datentresor in Redshift und ETL-Strategie
In meiner Architektur betrachte ich derzeit die ehemalige (d. H. S3 Data Lake + Redshift Vault und Marts). Ich weiß jedoch nicht, ob ich ETL-Prozesse direkt in Redshift erstellen kann, um die Marts mit Daten im Vault zu füllen, oder ob ich zum Beispiel Amazon EMR verwenden muss, um die Rohdaten in S3 zu verarbeiten und dort neue Dateien zu generieren Lade sie endlich in die Marts.
Also, meine zweite Frage ist: Was sollte die ETL-Strategie sein? Vielen Dank.
S3 ist nicht relational, es ist im Grunde zum Speichern von Dateien. Data Vault ist in einer relationalen Datenbank implementiert, sodass Sie keinen Datenspeicher in S3 erstellen können. Wie würden Sie Ihre Hubs, Links, Satelliten in S3 bauen? Wenn Sie nach Terminologie suchen, dann könnte S3 Ihren 'Datensee' genannt werden (urgh Ich fühle mich jetzt schmutzig) –
@ Nick.McDermaid, Sie haben Recht. Ich habe S3 eher als Data Lake in meiner Architektur gedacht. Meine Frage ist mehr über DV und Data Marts in Redshift oder nur Data Marts, die aus Daten im See gefüllt werden (ich werde die Frage bearbeiten). Was ich denke ist, den Vault mit Daten in S3 zu laden und dann die Marts mit Daten aus dem Vault zu laden. Ich weiß jedoch nicht, ob ich in der Lage sein werde, ETL-Prozesse direkt in Redshift zu erstellen, oder ich muss es zum Beispiel mit Amazon EMR machen, indem ich die Dateien in S3 verarbeite und neue Dateien mit Daten für die Marts erzeuge und lade es in Redshift? –
Nun, wenn Sie eine Datentresor benötigen, muss es in Rotverschiebung erstellt werden. Sie können Dateien in das DV oder DM laden. Wenn Sie sich für eine DV entscheiden, können Sie DV über Ansichten und Anweisungen zum Löschen/Einfügen/Aktualisieren in DM laden - Sie müssen nicht mehr zum Exportieren und Importieren von Dateien wechseln. Das Laden von Dateien in Redshift würde eine Art von Scheduling-/Job-Running-Tool erfordern, um (bei AWS oder nicht) eine Verbindung zu Rotverschiebung herzustellen und den Befehl "COPY" in Rotverschiebung auszuführen, um die Daten zu laden. Ich habe ein Projekt untersucht, aber ich habe es noch nie angefangen, also ist das alles Theorie für mich. –