2016-04-28 9 views
2

Ich habe begonnen, Galago für den Abruf von Dokumenten zu verwenden. Ich möchte einige Dokumente (ursprünglich abgerufene Dokumente mit einem beliebigen Modell) mithilfe von LDA clustern. Ich bevorzuge eine Java-basierte Implementierung, die mit Galago in meinen Code integriert werden kann. Ich würde es begrüßen, wenn Sie mir mitteilen könnten, welche Open-Source-Implementierung von LDA für meinen Zweck besser geeignet ist.Verwenden von LDA in Galago Suchmaschine

Vielen Dank im Voraus für Ihre Hilfe!

Antwort

0

Es gibt einen schnellen Algorithmus für LDA aus diesem Papier:

S. Arora, R. Ge, Y. Halpern, D. Mimno, A. Moitra, D. Sontag, Y. Wu, M. Zhu. Ein praktischer Algorithmus zur Themenmodellierung mit nachweisbaren Garantien. 30. Internationale Konferenz für Machine Learning (ICML), 2013.

, die eine Java-Implementierung hat von einem der Autoren (D. Mimno) auf GitHub hier: https://github.com/mimno/anchor

Ich habe stocherte mit dieser Implementierung kurz, und fand gute und schnelle Ergebnisse. Wie bei allen LDA/Topic-Modellen kann es schwierig sein, die Anzahl der Themen richtig zu gestalten.

+0

Hallo John, Vielen Dank für Ihre Hilfe. Ich habe nur eine Frage: In der Ausgabedatei von train-anchor, die von --topics-file angegeben wird, sind die Wahrscheinlichkeiten p (topic | word) * p (word)? Ich habe diese Frage, weil das Handbuch p sagt (Thema | Wort), aber im Code fand ich wordProb * Gewichte [Thema]; Danke noch einmal! – Magen