Ein bisschen Graben, Hong and Davison (2010) zeigte sich als ein gutes Beispiel für diese nicht gut zum Klassifizieren Tweets. Leider geben sie nicht wirklich viel Einblick, warum es nicht funktioniert.
Ich vermute, es gibt zwei Gründe, warum LDA nicht gut für kurze Dokumente funktioniert.
Zunächst einmal, wenn Sie an kleineren Dokumenten arbeiten, fügt die zusätzliche Topic-Ebene nichts zur Klassifikation hinzu, und was nicht hilft, tut wahrscheinlich weh. Wenn Sie sehr kurze Dokumente haben, wie Tweets, ist es wirklich schwierig, Dokumente in Themen zu zerlegen. Es gibt schließlich nur wenig Platz für ein Thema in einem Tweet. Da die Themenschicht nicht viel zur Klassifizierung beitragen kann, ist es möglich, dass Fehler im System auftreten.
Zweitens bevorzugen Twitter-Nutzer, "unnötigen Fluff" beim Twittern zu entfernen. Wenn Sie mit vollständigen Dokumenten arbeiten, gibt es Funktionen - Wörter, Wortkollokationen usw. - die wahrscheinlich spezifisch, häufig und oft innerhalb eines Genres wiederholt werden. Beim Twittern werden diese gemeinsamen Elemente jedoch zuerst fallengelassen, weil das, was interessant, neu und perplexer ist, übrig bleibt, wenn der Flaum entfernt wird.
Zum Beispiel schauen wir uns an myowntweets, weil ich in schamlose Eigenwerbung glauben:
Progressbar.py is a fun little package, though I don't get
a chance to use it too often. it even does ETAs for you
https://pypi.python.org/pypi/progressbar …
From a capitalist perspective, the social sciences exist so
idiot engineers don't waste money on building **** no one needs.
Abstract enough to be reusable, specific enough to be useful.
Die erste ist über Python. Wenn Sie die URLs analysieren, erhalten Sie das - und die .py würde es Ihnen auch geben. In einem expressiveren Medium hätte ich wahrscheinlich irgendwo das Wort "Python" eingefügt. Die zweite ist Programmierung, aber ein bisschen mehr auf das Business-Ende. Nicht einmal erwähnt es überhaupt etwas spezifisch für die Programmierung. Das letzte ist auch programmierbezogen, aber es verbindet sich mehr mit der Kunst des Programmierens, das beim Codieren eine Art Double-Bind-Programmierer-Gesicht ausdrückt. Es ist so schwierig wie das zweite Feature.
In beiden dieser letzten zwei Beispiele, hätte ich nicht einen Microblog-Beitrag geschrieben, wären diese sofort gefolgt von Beispielen, die für einen Klassifikator sehr nützlich gewesen wären oder selbst mehr Daten enthalten hätten. Twitter hat jedoch keinen Platz für solche Sachen, und der Inhalt, der das Genre kennzeichnet, zu dem ein Tweet gehört, ist ausgeblendet.
Also, am Ende haben wir zwei Probleme. Die Länge ist ein Problem für LDA, da die Themen einen zusätzlichen, unnötigen Freiheitsgrad hinzufügen und die Tweets ein Problem für jeden Klassifizierer darstellen, da die für die Klassifizierung typischen Merkmale von den Autoren selektiv entfernt werden.
Stimmen Sie mit Ihrer Idee überein, dass der Dokument-Themen-Layer von LDA für kurze Texte nicht erforderlich ist. Möchtest du noch weitere Erklärungen, vielleicht eine Prozedur von LDA, die im kurzen Text falsch läuft, oder theoretisch erklären? –