2016-04-30 7 views
2

Ich möchte Genism Doc2vec-Modell für eine Klassifizierungsaufgabe verwenden. Es scheint jedoch, als ob die Gensim-Implementierung von doc2vec erfordert, alle Dokumente zu sehen (trainieren und testen), um das Vokabular vor dem Training des Modells aufzubauen. Andernfalls erhalten Sie keyerror, wenn Sie den Dokumentvektor eines Dokuments abrufen möchten, das beim Erstellen des Vokabulars nicht vorhanden war. Ich frage mich, ob mein Verständnis stimmt! In der Praxis hat man zum Zeitpunkt des Trainings keinen Zugriff auf die Testdaten.Abrufen der Absatzdarstellung für ungesehene Absätze in doc2vec

Gibt es eine Möglichkeit, das Vokabular zur Testzeit zu aktualisieren, um eine Dokumentendarstellung von Testdokumenten zu erhalten?

Antwort

2

Sie können nur gelernte Dokumentenvektoren nach Material suchen, das während des Trainings angezeigt wurde.

Aber es gibt eine Methode infer_vector(), die dem eingefrorenen, trainierten Modell ein neues Token-Dokument bereitstellen und einen 'best-fit'-Vektor zurückgeben kann. Es entspricht ungefähr dem Wert, der zurückgegeben würde, wenn das neue Dokument während des Trainings verfügbar wäre. Siehe:

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector

Verwandte Themen