2017-08-07 1 views
2

Ich habe ein Sternschema Art der Datenbankstruktur, wie eine Faktentabelle mit allen IDs & skeys, während es mehrere Dimensionstabellen mit der tatsächlichen ID, Code, Beschreibungen für die IDs sind in der Faktentabelle angegeben.Daten Transformation in AWS EMR ohne Verwendung von Scala oder Python

wir alle diese Tabellen bewegen (fact & Dimensionen) bis S3 (Wolke) einzeln und jeweils Tabellendaten aufgeteilt werden in mehrere Parkett Dateien in S3 Position (ein S3-Objekt pro Tisch)

Abfrage: Ich muss Führen Sie eine Transformation auf Cloud (dh) Ich brauche Streifen aller IDs & Sprünge in der Faktentabelle verwiesen und ersetzen Sie sie mit dem tatsächlichen Code, der in den Dimensionstabellen residiert und erstellen Sie eine andere Datei und speichern Sie die endgültige Ausgabe in S3-Speicherort. Diese Datei wird später von Redshift for Analytics verwendet.

Mein Zweifel: Was ist der beste Weg, um diese Lösung zu erreichen, cos ich brauche keine Rohdaten (skeys & IDs) in Redshift für Kosten-und Speicheroptimierung? Müssen wir zuerst diese geteilten Dateien (Parkett) zu einer großen Datei kombinieren, bevor wir die Datentransformation durchführen. Auch nach der Datenumwandlung plane ich, die endgültige Ausgabedatei im Parkettformat zu speichern, aber der Haken ist, Redshift erlaubt keine Kopie der Parkettdatei, also gibt es einen Workaround dafür Ich bin kein Hardcore-Programmierer und will um Scala/Python in einer EMR zu vermeiden, aber ich bin gut in SQL, also gibt es eine Möglichkeit, Datentransformation in der Cloud durch SQL durch EMR durchzuführen und die Ausgabedaten in eine Datei oder Dateien zu speichern. Bitte geben Sie

Antwort