2017-02-08 7 views
1

Ich benutze Gensim, um Feature-Vektor aus einem Dokument zu extrahieren. ich das vorher gelerntes Modell von Google heruntergeladen habe namens GoogleNews-vectors-negative300.bin und ich das Modell geladen mit dem folgenden Befehl:laden vortrainiert word2vec Modell für doc2vec

model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 

Mein Ziel einen Merkmalsvektor aus einem Dokument zu erhalten ist. Für ein Wort ist, ist es sehr einfach, den entsprechenden Vektor zu erhalten:

vector = model[word] 

Aber ich weiß nicht, wie es für ein Dokument zu tun. Kannst du bitte helfen?

Antwort

0

Eine Reihe von Wortvektoren (wie GoogleNews-vectors-negative300.bin) ist weder notwendig noch ausreichend für die Art von Textvektoren (Le/Mikolov 'Absatzvektoren'), die von der Doc2Vec-Klasse erzeugt werden. Es erwartet stattdessen, dass man mit Beispieltexten trainiert wird, um Vektoren pro Dokument zu lernen. Dann kann das trainierte Modell auch verwendet werden, um Vektoren für andere neue Dokumente "abzuleiten".

(Die einzige Doc2Vec Klasse unterstützt die load_word2vec_format() Methode, weil sie von der Word2Vec Klasse erbt - nicht, weil es diese Funktionalität benötigt.)

gibt es eine weitere einfache Art von Text-Vektor, der die Wörter erstellt werden können alle durch einfaches Mitteln in dem Dokument, vielleicht auch nach einer Wortgewichtungsgewichtung. Aber Doc2Vec bietet das nicht.

Verwandte Themen