Was ist der beste Weg, um einzigartige Besucher mit Hadoop zu zählen?

hey alle, nur auf hadoop Sie beginnen und gespannt, was der beste Weg, in mapreduce Besucher zu zählen wäre, wenn Ihre Logfiles so aussah ...Was ist der beste Weg, um einzigartige Besucher mit Hadoop zu zählen?

DATE  siteID action username 
05-05-2010 siteA pageview jim 
05-05-2010 siteB pageview tom 
05-05-2010 siteA pageview jim 
05-05-2010 siteB pageview bob 
05-05-2010 siteA pageview mike

und für jede Website, die Sie das herausfinden wollte, einzigartige Besucher für jede Seite?

Ich dachte, der Mapper würde SiteID \ t Benutzername emittieren und der Reducer würde ein set() der eindeutigen Benutzernamen pro Schlüssel behalten und dann die Länge dieses Satzes ausgeben. Dies würde jedoch potenziell Millionen von Benutzernamen im Speicher speichern, was nicht richtig erscheint. Jeder hat einen besseren Weg?

Ich verwende Python-Streaming von der Art und Weise

dank

Quelle

2010-05-21 James

Sie es als eine Operation 2-stufig tun könnte:

Erster Schritt emittieren (username => siteID) und haben die Minderer nur mehrere kollabieren Vorkommen von Site-ID mit einem set - da Sie normalerweise weit weniger Websites als Benutzer haben, sollte dies in Ordnung sein.

Dann im zweiten Schritt können Sie ausgeben und eine einfache Zählung durchführen, da die Duplikate entfernt wurden.

Quelle

2010-05-21 20:48:35 tzaman

Verwenden Sie die sekundäre Sortierung, um die Benutzer-ID zu sortieren. Auf diese Weise müssen Sie nichts im Speicher haben - streamen Sie einfach die Daten durch und erhöhen Sie den Zähler, wenn Sie die Wertänderung für eine bestimmte Site-ID sehen.

Hier sind einige documentation.

Quelle

2010-05-24 19:22:19 SquareCog

Mein aproach ist ähnlich dem, was tzaman mit einem kleinen Twist gab

Karte Ausgabe: (Benutzername, siteid) => ("")
reduzieren Ausgang: (siteid) => (1)
Karte: Identität Mapper
reduzieren: longsumreducer (dh zusammenfassen einfach)

Beachten Sie, dass die erste eine der r gehen nicht reduzieren müssen Akkorde wird präsentiert. Sie können den Schlüssel einfach untersuchen und die Ausgabe erzeugen.

HTH

Quelle

2010-05-26 07:12:53

Es ist oft schneller HiveQL zu verwenden viele einfache Aufgaben zu sortieren. Hive übersetzt Ihre Abfragen in Hadoop MapReduce. In diesem Fall können Sie

SELECT COUNT(DISTINCT username) FROM logviews

verwenden Sie einen fortgeschritteneren Beispiel finden Sie hier: http://www.dataminelab.com/blog/calculating-unique-visitors-in-hadoop-and-hive/

Quelle

2011-09-07 08:36:53 Datageek

Was ist der beste Weg, um einzigartige Besucher mit Hadoop zu zählen?

Antwort

Verwandte Themen