0

Ich habe Daten über Besuche und Buchungen von Benutzern in einem Diskussionsforum für einen Zeitraum von 1 Woche und diese Daten enthalten den Zeitstempel der Aktivität. Basierend auf diesen Forumsdaten versuchte ich, ein anderes Verhalten der Benutzer vorherzusagen (sagen wir X Verhalten). Erste Ergebnisse des Regressionsmodells zeigen, dass die Forumsaktivitäten der Benutzer mit ihrem Verhalten verbunden zu sein scheinen. Neben diesen kumulativen Eigenschaften: avg_visits_per_day, total_posts_whole_week, ich habe auch Funktionen für jeden Tag (0<a<8): {a} _visits und {a} _posts.So können Sie nützliche Funktionen aus Zeitreihendaten extrahieren (z. B. tägliche Aktivitäten eines Benutzers in einem Forum)

Insgesamt habe ich also 16 Merkmale, und das Regressionsmodell, das mit diesen 16 Merkmalen erstellt wurde, liefert vielversprechende Ergebnisse. Es würde also mehr Sinn machen, wenn ich mehr Features generieren könnte. Ich weiß jedoch nicht, ob es eine nützliche Feature-Extraction-Strategie für solche Zeitreihendaten gibt. Ich verwende sklearn, habe aber keine Methode für diesen Zweck gefunden. Irgendwelche Ideen oder Empfehlungen?

Antwort

1

Es gibt viele Optionen, und es ist schwierig zu sagen, welche für die Vorhersage des unbekannten "x-Verhaltens" hilfreicher sind. Aber man kann:

  1. manuell Funktionen erstellen, um Informationen repräsentieren, die in Rohdaten deutlich vorhanden sind, aber nicht in Sie aktuelle Funktion überhaupt eingestellt. Wenn Sie beispielsweise nicht nur Daten, sondern auch Zeiten der Aktivität protokolliert haben, können Sie zusätzliche Funktionen für die erste/letzte/durchschnittliche Besuchszeit innerhalb eines jeden Tages erstellen (vielleicht konvertiert in kategorischen Morgen/Tag/Abend/Nacht), durchschnittliche Zeit zwischen Besuchen und so weiter. Wahrscheinlich könnten Informationen über den Wochentag auch nützlich sein.

  2. Erstellen Sie manuell relativ Funktionen aus bestehendem Satz: sagen, Besuche/posts Verhältnis für jeden Tag, die Anzahl der Tage seit dem letzten Beitrag, längste Zeit ohne Besuche, etc

  3. Verwenden zusätzliche Informationen, wenn es verfügbar ist: Browser des Benutzers , Betriebssystem, Bildschirmauflösung, Beitragslänge, Schlüsselwörter in seinem Post, Unterforum, zu dem es gehört, neue Post oder Follow-up, ... - wieder einmal ist es schwer vorherzusagen, was relevant sein wird.

  4. Sie automatisierte Merkmalsextraktion durch Paket wie tsfresh oder (weniger automatisiert) hctsa

+0

Vielen Dank für die Antwort! Ich glaube, nach "Wochentag-Information" meinen Sie so etwas wie "1." oder "5." Aktivitäten? – renakre

+1

Gern geschehen. Unter Wochentag verstehe ich Folgendes: wenn Ihre Woche nicht immer am selben Tag beginnt (dh {1} _besuche und {1} _posts könnten Besuche/Beiträge sein, die am Sonntag für einen Benutzer und am Montag für einen anderen angemeldet sind) Die Bereitstellung dieser Informationen für den Vorhersagealgorithmus könnte die Ergebnisse verbessern. – slonopotam

Verwandte Themen