Wir haben eine Anforderung, Themenmodellierung auf den Twitter-Tweets im Live-Stream zu tun, macht die Eingabe zu Funken-Streaming und speichert die Daten in HDFS. Ein Stapeljob wird mit den gesammelten Daten ausgeführt. Der Stapeljob dient dazu, die zugrunde liegenden Themen in den Tweets zu finden. Dazu verwenden wir den Latent Dirichlet Allocation (LDA) Algorithmus, um die Themen herauszufinden. Wir empfangen Daten als Tweets mit maximalen Zeichen 140 und werden als eine Zeile in HDFS gespeichert.So erstellen Sie Dokumente für LDA auf Twitter-Daten
Ich bin neu in dem LDA-Algorithmus und habe grundlegendes Verständnis auf, dass, wie das Thema Modell basierend auf Wort Kookkurrenzen über n Dokumente abgeleitet wird
Ich verstand zwei Möglichkeiten zur Eingabe der Daten in den LDA.
Option 1: Verwenden Sie einen Zeilen-Tweet als ein einziges Dokument für den LDA ?.
Option 2: Gruppieren Sie die Zeilen und Formulardokumente übergeben Sie diese Dokumente an LDA ?.
Ich möchte verstehen, wie die Verteilung des Vokabulars (Wörter) zum Thema für jede Option erfolgt. Welche Option sollte für eine bessere Themenmodellierung in Betracht gezogen werden?
Bitte lassen Sie mich auch wissen, wenn eine bessere Lösung erforderlich ist, um Themenmodellierung auf den Twitter-Daten anders als diese otpions zu tun.
Hinweis: Wenn ich die beiden Optionen ausgeführt und auf der Wortwolke angezeigt, konnte ich die Verteilung der Wörter zu den Themen sehen (3) ist für beide unterschiedlich.
Jede Hilfe wird geschätzt.
Vielen Dank im Voraus.