2017-02-07 2 views
1

Ich benutze LDA in Mallet, um meine Daten zu erkunden. Ich habe kein Problem mit dem Laufen haben, nur muss ich die Wahrscheinlichkeit von oben Worte haben (wir 20 Worte sagen)Wie Wahrscheinlichkeit Wörter von Themen in Mallet zu erhalten

Ich benutze diese Abfrage:

bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-keys tutorial_keys_doc_40t.txt --output-doc-topics tutorial_composition_doc_40t.txt 

Ich weiß nicht, was die Abfrage wäre für die Wahrscheinlichkeiten von Wörtern.

Antwort

2

sollten Sie in der Lage sein, die --topic-word-weights-file FILENAME Option zu verwenden.

Das Format für die Ausgabedatei ist

topic [tab] word [tab] weight 

wo weight auf die Wahrscheinlichkeit des Wortes im Thema proportional ist. Teilen Sie sich durch die Summe der Gewichte für ein Thema, um die normalisierte Wahrscheinlichkeit zu erhalten.

1

Späte Antwort, aber wer weiß, könnte es jemand anderem helfen.

MALLET 2.0.8 hat ein neues Feature eine sehr interessante Diagnosedatei eine Reihe von Metriken für jedes Thema und seine Top-Worte zur Ausgabe enthält. Wortwahrscheinlichkeit ist einer von ihnen.

Fügen Sie einfach --diagnostics-file FILENAME zu Ihrem Zug-Themen Befehl.

Anzahl der Wörter für jedes Thema beschrieben ist das gleiche, als durch „--num-Top-Wörter“ definiert. Hier

ist der Link zu einer ausführlichen Dokumentation: http://mallet.cs.umass.edu/diagnostics.php. Wenn Sie Ihr Thema nicht weiterbilden möchten, können Sie die Diagnosedatei trotzdem mit der Datei "state" ausgeben. Alles ist im Link beschrieben.

Verwandte Themen