2016-06-12 11 views
0

Ich habe eines der Cassandra-Videos auf der DataSax Academy angeschaut. Ein Konzept, über das sie viel reden, ist die abfragebasierte Modellierung. Dies ist sinnvoll, wenn Sie Ihre Abfragen wie im KillrVideo-Beispiel im Voraus kennen.Abfragebetriebene Modellierung und Big Data

Aber in Big Data Fällen, ich hoffe, ich bin nicht der einzige zu denken, dass wir kaum wissen, welche Art von Abfragen Analysten auf die Daten 5 Monate oder ein Jahr später durchführen wird.

Wenn dies der Fall ist, was sind die besten Verfahren zum Speichern Ihrer Daten? Meine Vermutung ist, dass Sie für die erweiterte Abfrage solcher Daten wahrscheinlich Ihre Daten in Spark laden. Aber was muss ich bei der Speicherzeit beachten, um Betriebsstörungen und Probleme beim Abruf zu vermeiden? Welche Retrieval-Ansätze sind weniger problematisch?

Antwort

0

Cassandra ist auch eine Datenbank für Analyse-Anwendungsfälle, aber nicht immer für Ad-Hoc Analaytics (Nur ein Bericht und diese Abfrage führt nie wieder Sachen durch).

Für diesen Anwendungsfall ist ein Hadoop-Cluster eine bessere Option für Sie. (Vielleicht parquete auf hadoop) Wenn Sie sehen, dass Abfragen immer und immer wieder ausführen, ist Cassandra dein Freund. Im Allgemeinen können Sie Cassandra für 50 bis 70% Ihrer Anwendungsfälle verwenden. Mit Spaltenschlüsseln und Sekundärindizes können Sie wirklich ein breites Spektrum von Abfragen durchführen. Gehe zu deinen Analytics Guys und frage sie, was sie brauchen. Dann: Erstellen Sie Ihre Tabellen :)

Verwandte Themen