Ich bin neu im Thema Modellierung. Mein Ziel ist es, Schlüsselthemen aus einem Dokument zu finden. Ich plane, lda für den Zweck zu verwenden. Aber in lda sollte die Anzahl der Themen vordefiniert sein. Ich glaube, wenn ein Dokument von einer anderen Domäne, die nicht im Trainingskorpus war, kommt, wird es keine korrekten Ergebnisse geben. Gibt es eine alternative Lösung? Ist mein Gedanke richtig?Dynamische Anzahl von Themen in Topic-Modellen
Antwort
Zwei gute Kandidaten zum Erlernen der Themen sind Latent Dirichlet Allocation (LDA) und hierarchische Dirichlet Process (HDP) Topic-Modelle.
Für LDA ist die Anzahl der Themen K festgelegt und es wird davon ausgegangen, dass sie im Voraus bekannt sind. Schnelle Inferenzalgorithmen wie der in scikit und gensim implementierte on-line Variation Bayes (VB) -Algorithmus ermöglichen das Training auf sehr großen Datensätzen (zB New York Times oder Wikipedia). Durch Training auf großen Korpora und Einstellung von K high können wir das Problem vermeiden von Überanpassungen und lernen sinnvolle Themen für Out-of-Sample-Dokumente. Für LDA wird die Kreuzvalidierung häufig verwendet, um K zu setzen, indem Perplexität für eine unterschiedliche Anzahl von Zweigen ausgewertet wird und K gewählt wird, die Perplexität minimiert.
Alternativ, HDP Topic-Modell (implementiert in gensim) lernt die Anzahl der Themen aus Daten automatisch. Durch Festlegen der Konzentrationsparameter und der Verkürzungsstufen wird die Anzahl der Themen vom Modell abgeleitet. Effiziente Inferenzalgorithmen, wie z. B. die Online-Variationsinferenz für HDPs, ermöglichen das Training in umfangreichen Datensätzen und die Entdeckung bedeutungsvoller Themen.
- 1. Dynamische Themen worklight 7.0
- 2. Dynamische Anzahl von einheitlichen Blöcken
- 3. Dynamische Anzahl von Highcharter-Plots
- 4. ASP .NET MVC 2: Dynamische Themen
- 5. Erweiterte JavaScript-Themen (Nur Namen von Themen)
- 6. Dynamische Anzahl von UILabels in benutzerdefinierten Tabellenansichtszelle
- 7. Elasticsearch/Python dynamische Anzahl von Filtern
- 8. Apache Flink dynamische Anzahl von Sinks
- 9. Hochladen dynamische Anzahl von Dateien mit okHttp3
- 10. Erhöhung der Anzahl der Themen in Kafka führt zoekeeper fehlschlagen
- 11. dynamische Anzahl von Ajax-Anforderung sequentiell
- 12. Themen in Hadoop
- 13. Dynamische Anzahl von Spalten in SQL-Abfrage in PL/SQL
- 14. Dynamische Anzahl der Zeilen in Laravel Blade
- 15. Überschreiben von Themen in WPF
- 16. Ändern von Themen in Android
- 17. MySQL Pivotzeile in dynamische Anzahl der Spalten
- 18. HTML dynamische Anzahl der Checkboxen
- 19. Dynamische Anzahl der Elemente in TableViewCell
- 20. dynamische Anzahl der Achsen in Google Liniendiagramm
- 21. Vorrang von Themen/Stilen?
- 22. lösen dynamische Anzahl von nichtlinearen Gleichungen in Python
- 23. Set Einschränkungen in Code für eine dynamische Anzahl von Elementen
- 24. Dynamische Anzahl von ImageViews basierend auf Benutzereingaben in XML
- 25. Wie die Anzahl der Themen für LDA zu bestimmen?
- 26. Themen in Android?
- 27. Alle Themen anzeigen
- 28. Wie werden THEMEN in Apache Kafka verwaltet
- 29. java Themen in libGDX
- 30. Java Dynamische Anzahl Thread Creation und Mangement
Meinten Sie nur ein Dokument, wenn Sie "ein Dokument" sagen? Die Themenmodellierung mit LDA ist nur sinnvoll, wenn Sie ein aus vielen Dokumenten bestehendes Korpus haben. Beachten Sie auch, dass "Thema" in der Themenmodellierung eine eher spezifische Bedeutung hat, es ist nicht identisch mit einer "Beschriftungsaufgabe". – jknappen