2017-11-27 4 views
1

Ich führe gerade ein Thema Modellierung mit LDA aus text2vec Paket. Ich schaffte es, eine dtm-Matrix zu erstellen und dann LDA und seine fit_transform Methode mit anzuwenden.text2vec - Werden die Wörter der Themen mit neuen Daten aktualisiert?

Während ich mir die obersten Wörter von jedem Thema ansah, kam mir eine Frage in den Sinn. Ich plane, das Modell später auf neue Daten anzuwenden, und es besteht die Möglichkeit, dass neue Wörter vorkommen, die dem Modell vorher nicht begegnet sind. Wird das Modell immer noch in der Lage sein, jedes Wort seinem jeweiligen Thema zuzuordnen? Werden diese Wörter außerdem zum Thema hinzugefügt, sodass ich sie mit get_top_words finden kann?

Vielen Dank für Ihre Antwort!

Antwort

1

Die Idee des statistischen Lernens ist, dass die zugrundeliegenden Verteilungen von "Zug" -Daten und "Test" -Daten mehr oder weniger gleich sind. Wenn also Ihre neuen Dokumente eine völlig andere Verteilung haben, können Sie nicht erwarten, dass LDA auf magische Weise funktioniert. Dies gilt für jedes andere Modell.

Während der Inferenzzeit ist die Wort-Wort-Verteilung festgelegt (sie wurde in der Trainingsphase gelernt). So wird get_top_words immer die gleichen Wörter nach dem Modell zurückgeben.

Und natürlich werden neue Wörter nicht automatisch eingefügt - Document-Term-Matrix aus einem Vokabular (das Sie vor dem Bau von DTM lernen) und neue Dokumente werden auch nur Wörter aus festen Vokabeln enthalten.

Verwandte Themen