Ich weiß - Cassandra unterstützt nicht group by
. Aber wie kann man bei einer großen Sammlung von Daten ein ähnliches Ergebnis erzielen? Nehmen wir an, ich habe Tabelle mit 1 mln Reihen von clicks
, 1 mln mit shares
und Tabelle user_profile
. clicks
und shares
speichern Sie einen Vorgang pro Zeile mit created_at
Spalte. Auf einem Armaturenbrett Ergebnisse möchte ich Tag gruppiert zeigen, zum Beispiel:Cassanda - Gruppe durch und in der richtigen Weise verbinden
2016-06-01 - 2016-07-01
+-------------+--------+------+
|user_profile | like |share |
+-------------+--------+------+
| John | 34 | 12 |
| Adam | 12 | 4 |
| Bruce | 4 | 2 |
+-------------+--------+------+
Die Frage ist, wie kann ich tun dies in der richtigen Weise:
- Tabelle user_likes_shares mit
counter
nach Datum erstellen - UDF erstellen jede Spalte zu
group by
und sie in dem Code durch die Zusammenführung verbinden Arrays durch Schlüssel - auswählen von Daten aus Tabellen 3 Gruppe und kommen sie in dem Code durch das Zusammenführen von Arrays Schlüssel
- Eine weitere Option
Wenn Sie Code verwenden, um die Ergebnisse zu verbinden, verwenden Sie Apache Spark-SQL, ist der Funke der richtige Weg, in diesem Fall?
Mögliches Duplikat von [Cassandra-Gruppe nach und Filterergebnisse] (http://stackoverflow.com/questions/31683872/cassandra-group-by-and-filter-results) –
Konnten Sie die Schemas für die Tabellen zur Verfügung stellen? Nach was gruppieren Sie sich? (Ich vermute, es ist durch eine URL?) – fromanator