2016-11-16 1 views
1

Ich bin neu im Thema Modellierung. Mein Ziel ist es, Schlüsselthemen aus einem Dokument zu finden. Ich plane, lda für den Zweck zu verwenden. Aber in lda sollte die Anzahl der Themen vordefiniert sein. Ich glaube, wenn ein Dokument von einer anderen Domäne, die nicht im Trainingskorpus war, kommt, wird es keine korrekten Ergebnisse geben. Gibt es eine alternative Lösung? Ist mein Gedanke richtig?Dynamische Anzahl von Themen in Topic-Modellen

+0

Meinten Sie nur ein Dokument, wenn Sie "ein Dokument" sagen? Die Themenmodellierung mit LDA ist nur sinnvoll, wenn Sie ein aus vielen Dokumenten bestehendes Korpus haben. Beachten Sie auch, dass "Thema" in der Themenmodellierung eine eher spezifische Bedeutung hat, es ist nicht identisch mit einer "Beschriftungsaufgabe". – jknappen

Antwort

1

Zwei gute Kandidaten zum Erlernen der Themen sind Latent Dirichlet Allocation (LDA) und hierarchische Dirichlet Process (HDP) Topic-Modelle.

Für LDA ist die Anzahl der Themen K festgelegt und es wird davon ausgegangen, dass sie im Voraus bekannt sind. Schnelle Inferenzalgorithmen wie der in scikit und gensim implementierte on-line Variation Bayes (VB) -Algorithmus ermöglichen das Training auf sehr großen Datensätzen (zB New York Times oder Wikipedia). Durch Training auf großen Korpora und Einstellung von K high können wir das Problem vermeiden von Überanpassungen und lernen sinnvolle Themen für Out-of-Sample-Dokumente. Für LDA wird die Kreuzvalidierung häufig verwendet, um K zu setzen, indem Perplexität für eine unterschiedliche Anzahl von Zweigen ausgewertet wird und K gewählt wird, die Perplexität minimiert.

Alternativ, HDP Topic-Modell (implementiert in gensim) lernt die Anzahl der Themen aus Daten automatisch. Durch Festlegen der Konzentrationsparameter und der Verkürzungsstufen wird die Anzahl der Themen vom Modell abgeleitet. Effiziente Inferenzalgorithmen, wie z. B. die Online-Variationsinferenz für HDPs, ermöglichen das Training in umfangreichen Datensätzen und die Entdeckung bedeutungsvoller Themen.