Wir haben einen Anwendungsfall, bei dem wir über die einzelnen Besucher unserer App in jedem beliebigen Zeitraum (Stundengranularität) berichten möchten.Zählen Sie einzigartige Besucher in jeder Zeitbereichsanalyse?
Beispiel: Angenommen zu Stunde 0 hatten wir folgende Besucher {A, B, C, D} und zu Stunde 1 haben wir {C, D, E, F}, zu Stunde 2 haben wir {E, F, A , B} und zu Stunde 3 haben wir {A, C}. Wir müssen beantworten, wie viele Unique Visitors zwischen Stunde 1 und Stunde 3 waren und gleichzeitig die Anzahl der Unique Visitors zwischen Stunde 0 bis Stunde 3 etc. beantworten können?
Natürlich können wir nicht alle eindeutigen Besucher-IDs speichern, aber wir können einen BloomFilter für eine bestimmte Stunde speichern.
Ich plante, Aufnahme-Ausschluss-Eigenschaft zu verwenden, um die Gewerkschaften zu berechnen, würde aber gerne sehen, ob dort irgendwelche Rahmenwerke oder einige eine gute Lösung hat.
Big Data Technologies: Wir haben hdfs Setup, mit Bienenstock und auch Spark, Kafka.
In meiner aktuellen Lösung zu jeder Stunde plane ich, die neuen Besucher im Vergleich zu den vorherigen Stunden zu berechnen. Beispiel, wenn ich Daten für Stunde 5 verarbeite, plane ich folgendes zu berechnen: 1. Eindeutige Besucher in Stunde 5, 2. Neue Besucher in Stunde 5, die nicht in Stunde 4 waren. 3. neue Besucher in Stunde 5, die nicht in der Stunde waren 3 und Stunde 4 und so weiter .... –
sollten Sie Funken suchen, es hat viele eingebaute [Transformationen und Fenster-Operationen] (http://spark.apache.org/docs/latest/streaming-programming- guide.html # transformers-on-dstreams), die Ihr Anwendungsfall benötigt. –