Verwenden von LDA in Galago Suchmaschine

Ich habe begonnen, Galago für den Abruf von Dokumenten zu verwenden. Ich möchte einige Dokumente (ursprünglich abgerufene Dokumente mit einem beliebigen Modell) mithilfe von LDA clustern. Ich bevorzuge eine Java-basierte Implementierung, die mit Galago in meinen Code integriert werden kann. Ich würde es begrüßen, wenn Sie mir mitteilen könnten, welche Open-Source-Implementierung von LDA für meinen Zweck besser geeignet ist.Verwenden von LDA in Galago Suchmaschine

Vielen Dank im Voraus für Ihre Hilfe!

Quelle

2016-04-28 Magen

Es gibt einen schnellen Algorithmus für LDA aus diesem Papier:

S. Arora, R. Ge, Y. Halpern, D. Mimno, A. Moitra, D. Sontag, Y. Wu, M. Zhu. Ein praktischer Algorithmus zur Themenmodellierung mit nachweisbaren Garantien. 30. Internationale Konferenz für Machine Learning (ICML), 2013.

, die eine Java-Implementierung hat von einem der Autoren (D. Mimno) auf GitHub hier: https://github.com/mimno/anchor

Ich habe stocherte mit dieser Implementierung kurz, und fand gute und schnelle Ergebnisse. Wie bei allen LDA/Topic-Modellen kann es schwierig sein, die Anzahl der Themen richtig zu gestalten.

Quelle

2016-04-28 12:37:21

Hallo John, Vielen Dank für Ihre Hilfe. Ich habe nur eine Frage: In der Ausgabedatei von train-anchor, die von --topics-file angegeben wird, sind die Wahrscheinlichkeiten p (topic | word) * p (word)? Ich habe diese Frage, weil das Handbuch p sagt (Thema | Wort), aber im Code fand ich wordProb * Gewichte [Thema]; Danke noch einmal! – Magen

Verwenden von LDA in Galago Suchmaschine

Antwort

Verwandte Themen