Wir haben einen BI-Kunden, der monatlich etwa 40 Millionen Zeilen in seinen Verkaufsdatenbanktabellen erzeugt, die aus seinen Verkaufstransaktionen generiert werden. Sie möchten einen Sales Data Mart mit ihren historischen Daten von 5 Jahren aufbauen, was bedeutet, dass diese Faktentabelle potenziell 240 Millionen Zeilen haben wird. (40 x 12 Monate x 5 Jahre)Wie man eine BIG DATA Data Mart/Faktentabelle anpackt? (240 Millionen Zeilen)
Dies ist gut strukturierte Daten.
Dies ist das erste Mal, dass ich mit dieser Datenmenge konfrontiert bin, und dies hat mich dazu gebracht, vertikale Datenbanken wie Inforbright und andere zu analysieren. Aber mit dieser Art von Software würde eine einfache Abfrage sehr lange dauern.
Dies brachte mich dazu, einen Blick auf Hadoop zu werfen, aber nach dem Lesen einiger Artikel kam ich zu dem Schluss, dass Hadoop nicht die beste Option ist, um eine Faktentabelle zu erstellen, da in meinem Verständnis mit unstrukturiert gearbeitet werden soll Daten.
Also, meine Frage ist: Was wäre der beste Weg, um diese Herausforderung zu bauen ?? , Suche ich nicht nach der richtigen Technologie? Was wären die besten Abfrageantwortzeiten, die ich in einer so großen Faktentabelle bekommen könnte? ..oder konfrontiere ich hier eine echte Mauer und die einzige Option ist es, aggregierte Tabellen zu erstellen?
Was sind Ihre Anforderungen? Was möchten Sie mit den Daten machen (im Detail!)? – usr
Wir wollen OLAP-ähnliche Analysen machen: Zum Beispiel: Was sind die Top 10 der verkauften Produkte in diesen 5 Jahren ?, Top 10 Marken, ... und natürlich strukturierter mit mehr Variablen wie ... Was sind die Top 5? Marken verkauft in den 5 Jahren zwischen Kunden im Alter zwischen 20-30 in USA? –
Danke, das war hilfreich. Wie groß sind die Daten auf der Festplatte in GB? Ich denke, das ist ein Standard-Sternschema? Und welche Anforderungen für die Query-Dauer gibt es (Sekunden, Minuten, Stunden)? – usr