hey alle, nur auf hadoop Sie beginnen und gespannt, was der beste Weg, in mapreduce Besucher zu zählen wäre, wenn Ihre Logfiles so aussah ...Was ist der beste Weg, um einzigartige Besucher mit Hadoop zu zählen?
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
und für jede Website, die Sie das herausfinden wollte, einzigartige Besucher für jede Seite?
Ich dachte, der Mapper würde SiteID \ t Benutzername emittieren und der Reducer würde ein set() der eindeutigen Benutzernamen pro Schlüssel behalten und dann die Länge dieses Satzes ausgeben. Dies würde jedoch potenziell Millionen von Benutzernamen im Speicher speichern, was nicht richtig erscheint. Jeder hat einen besseren Weg?
Ich verwende Python-Streaming von der Art und Weise
dank