0

Wir haben eine Anforderung, Themenmodellierung auf den Twitter-Tweets im Live-Stream zu tun, macht die Eingabe zu Funken-Streaming und speichert die Daten in HDFS. Ein Stapeljob wird mit den gesammelten Daten ausgeführt. Der Stapeljob dient dazu, die zugrunde liegenden Themen in den Tweets zu finden. Dazu verwenden wir den Latent Dirichlet Allocation (LDA) Algorithmus, um die Themen herauszufinden. Wir empfangen Daten als Tweets mit maximalen Zeichen 140 und werden als eine Zeile in HDFS gespeichert.So erstellen Sie Dokumente für LDA auf Twitter-Daten

Ich bin neu in dem LDA-Algorithmus und habe grundlegendes Verständnis auf, dass, wie das Thema Modell basierend auf Wort Kookkurrenzen über n Dokumente abgeleitet wird

Ich verstand zwei Möglichkeiten zur Eingabe der Daten in den LDA.

Option 1: Verwenden Sie einen Zeilen-Tweet als ein einziges Dokument für den LDA ?.

Option 2: Gruppieren Sie die Zeilen und Formulardokumente übergeben Sie diese Dokumente an LDA ?.

Ich möchte verstehen, wie die Verteilung des Vokabulars (Wörter) zum Thema für jede Option erfolgt. Welche Option sollte für eine bessere Themenmodellierung in Betracht gezogen werden?

Bitte lassen Sie mich auch wissen, wenn eine bessere Lösung erforderlich ist, um Themenmodellierung auf den Twitter-Daten anders als diese otpions zu tun.

Hinweis: Wenn ich die beiden Optionen ausgeführt und auf der Wortwolke angezeigt, konnte ich die Verteilung der Wörter zu den Themen sehen (3) ist für beide unterschiedlich.

Jede Hilfe wird geschätzt.

Vielen Dank im Voraus.

Antwort

2

Die Verwendung von LDA mit einem kurzen Dokument ist etwas schwierig, da LDA für jedes Dokument ein Thema pro Wort und mehrere Themen zuweist. Wenn Sie einen kurzen Text verwenden, bedeutet dies, dass nur wenige Wörter zum selben Thema gehören, obwohl ein Tweet meistens nur ein Thema enthält, was normalerweise zur Verteilung von Müll-Themen führt. (Dies ist Ihre Option 1)

Ich weiß, dass es ein paper und Java-Tool für die Themenmodellierung für kurzen Text gibt, aber ich habe es noch nie verwendet. Hier ist die auf die GitHub Repo link

Für Option 2, ich denke, es möglich sein wird, LDA zu verwenden und kohärente Themen, aber Sie brauchen eine semantische Struktur für die Gruppierung zu finden, dh pro Quelle, Datum, Stichwort, hashtag ..

Ich bin wirklich interessiert an den Ergebnissen, die Sie erhalten, wenn Sie eine der vorgeschlagenen Optionen bald anwenden.

Verwandte Themen