2017-04-05 6 views
0

Wir haben einen Anwendungsfall, bei dem wir über die einzelnen Besucher unserer App in jedem beliebigen Zeitraum (Stundengranularität) berichten möchten.Zählen Sie einzigartige Besucher in jeder Zeitbereichsanalyse?

Beispiel: Angenommen zu Stunde 0 hatten wir folgende Besucher {A, B, C, D} und zu Stunde 1 haben wir {C, D, E, F}, zu Stunde 2 haben wir {E, F, A , B} und zu Stunde 3 haben wir {A, C}. Wir müssen beantworten, wie viele Unique Visitors zwischen Stunde 1 und Stunde 3 waren und gleichzeitig die Anzahl der Unique Visitors zwischen Stunde 0 bis Stunde 3 etc. beantworten können?

Natürlich können wir nicht alle eindeutigen Besucher-IDs speichern, aber wir können einen BloomFilter für eine bestimmte Stunde speichern.

Ich plante, Aufnahme-Ausschluss-Eigenschaft zu verwenden, um die Gewerkschaften zu berechnen, würde aber gerne sehen, ob dort irgendwelche Rahmenwerke oder einige eine gute Lösung hat.

Big Data Technologies: Wir haben hdfs Setup, mit Bienenstock und auch Spark, Kafka.

+0

In meiner aktuellen Lösung zu jeder Stunde plane ich, die neuen Besucher im Vergleich zu den vorherigen Stunden zu berechnen. Beispiel, wenn ich Daten für Stunde 5 verarbeite, plane ich folgendes zu berechnen: 1. Eindeutige Besucher in Stunde 5, 2. Neue Besucher in Stunde 5, die nicht in Stunde 4 waren. 3. neue Besucher in Stunde 5, die nicht in der Stunde waren 3 und Stunde 4 und so weiter .... –

+0

sollten Sie Funken suchen, es hat viele eingebaute [Transformationen und Fenster-Operationen] (http://spark.apache.org/docs/latest/streaming-programming- guide.html # transformers-on-dstreams), die Ihr Anwendungsfall benötigt. –

Antwort

Verwandte Themen