0

Ich führe einige Benchmarks in einer Datenbank durch und frage mich, ob es öffentlich verfügbare Datensätze gibt, die über 1T Zeilen enthalten?Öffentlicher Datensatz in Billionenreihen?

Ich weiß Google Big Query hat ein paar öffentlich verfügbare Datensätze, die 100M + (wikipedia, gdelt-Ereignisse) und 1B + (nyc-tlc) Reihen sind, konnte aber nichts größeres finden. Kennt jemand einen 1T-Datensatz, der entweder heruntergeladen werden kann?

Einige Referenz Links:

+0

Die Verarbeitung eines Billionen-Datensatzes kann sehr teuer sein, insbesondere wenn Sie Ihre Abfragen nicht sorgfältig schreiben. Machen Sie einige Berechnungen, bevor Sie beginnen. –

Antwort

1

Wäre es nicht einfacher sein, nur den Datensatz zu erzeugen? Sicher bleibt die Frage, wie realistisch die Wertverteilungen und Korrelationen sind und wie groß diese Auswirkungen auf die gemessene Leistung haben.

Und wenn Sie davon ausgehen können, dass der Cluster linear skaliert, können Sie einfach einen Benchmark mit 5% der Daten und 5% der Anzahl der Knoten erstellen, die den Produktionscluster erwarten. Unabhängig von der Datensatzgröße wählen Sie einfach die Anzahl der Knoten aus, damit sie die benötigte Anzahl an Anfragen pro Minute ausführen können.

Das Erstellen einer Sicherungskopie dieser Größe muss ein ziemlich interessantes Problem sein, besonders wenn es ständig aktualisiert wird.

+0

Die Erzeugung dieser Daten würde viel Zeit und viel PS erfordern. $$$ –

+0

Es sollte immer noch billiger sein, als es über das Internet zu übertragen und auf sekundären Festplatten zu speichern, bevor Sie es in Ihrer Datenbank speichern, vorausgesetzt, Sie führen keine reale Simulation durch, um die Daten zu generieren. OTOH, die Wikipedia-Benchmark-Tabelle scheint wirklich gut zu komprimieren! – NikoNyrh

+0

Die Tabelle/Daten befinden sich bereits in BigQuery. Sie übertragen also nichts über das Internet oder speichern auf "sekundären Festplatten". Sie führen alles auf Googles Pipes/Infrastruktur, also in einem Petabit-Netzwerk. –