-2

Ich bin derzeit ein Projekt analysieren Webprotokolle einer Website mit maschinellem Lernen. Ich putze die Daten und möchte eindeutige Besucher auf dieser Website identifizieren.Identifizieren eindeutiger Besucher aus Webprotokoll

Ich habe nicht viel Erfahrung im Umgang mit Weblogs, aber es ist offensichtlich zu sehen, dass wenn ein Benutzer besucht, mehrere Dateien abgerufen wurden (zum Beispiel die Datensätze in Spalte cs.uri.stem unten gezeigt).

Meine Fragen, wie wäre es, wenn ein Benutzer mehrere Seiten durchläuft (wie ging auf Seite B von einem Link in Seite A)? Woher weiß ich, dass er sich auf dieser Website verhalten hat?

Kann jemand außerdem eine große Python-Bibliothek vorschlagen, die bei der Analyse von Weblogs hilft?

Sehr geschätzt !!!

  date  time  s.ip cs.method cs.uri.stem                cs.uri.query s.port cs.username   c.ip sc.status sc.substatus sc.win32.status time.taken device   os   browser 
1 2014-08-05 00:00:03 10.130.0.12  GET/                     -  80   - 67.205.67.76  200   0    0  1391 Spider   Other PingdomBot_1.4 
2 2014-08-05 00:00:11 10.130.0.12  GET /about-the-hotel.aspx                -  80   - 70.56.59.43  200   0    0  1194  PC Mac_OS_X_10.8  Firefox_31.0 
3 2014-08-05 00:00:11 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/a-hotel-unlike-any-others.ashx   -  80   - 70.56.59.43  200   0    0  976  PC Mac_OS_X_10.8  Firefox_31.0 
4 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/0713-ExComTeam.ashx      -  80   - 70.56.59.43  200   0    0  1620  PC Mac_OS_X_10.8  Firefox_31.0 
5 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/vivienne-tam.ashx     -  80   - 70.56.59.43  200   0    0  1713  PC Mac_OS_X_10.8  Firefox_31.0 
6 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/william-lim.ashx      -  80   - 70.56.59.43  200   0    0  2387  PC Mac_OS_X_10.8  Firefox_31.0 
7 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/barney-cheng.ashx     -  80   - 70.56.59.43  200   0    0  2180  PC Mac_OS_X_10.8  Firefox_31.0 
8 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/tommy-li.ashx      -  80   - 70.56.59.43  200   0    0  1146  PC Mac_OS_X_10.8  Firefox_31.0 
9 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/yang-rutherford.ashx     -  80   - 70.56.59.43  200   0    0  869  PC Mac_OS_X_10.8  Firefox_31.0 
10 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/justin_wong_img1.ashx    -  80   - 70.56.59.43  200   0    0  845  PC Mac_OS_X_10.8  Firefox_31.0 
+0

Sie können sie mit IP-OS-Browser angeben – RaminNietzsche

+0

Können Sie genauer? –

+1

Fragen, die uns auffordern, ein Buch, ein Tool, eine Softwarebibliothek, ein Lernprogramm oder eine andere Offsite-Ressource zu empfehlen oder zu finden, sind für Stack Overflow nicht relevant. – DyZ

Antwort

1

Es kann eine gute Idee sein, bei pandas Bibliothek zu suchen. Sobald Sie Daten mit Pandas geladen haben (siehe Beispiel here), sollte es einfach sein, einzigartige Elemente zu finden, die auf einer oder mehreren Spalten konditioniert sind, Beispiel here.