0

Ich möchte die Vektoren auf der Suche nach Mustern und Sachen analysieren, und SVM auf ihnen verwenden, um eine Klassifizierungsaufgabe zwischen Klasse A und B abzuschließen, sollte die Aufgabe überwacht werden. (Ich weiß, dass es seltsam klingen mag, aber es ist unsere Hausaufgabe.) Daher muss ich wirklich wissen:Wie extrahieren Sie Vokabularvektoren von gensims word2vec?

1- wie extrahiert man die kodierten Vektoren eines Dokuments mit einem trainierten Modell?

2- wie man sie interpretiert und wie Word2vec sie codiert?

Ich benutze gensims word2vec.

+1

Wenn Sie versuchen, ganze Dokumente zu kategorisieren, sollten Sie das Doc2Vec-Modell überprüfen, das auch in der gensim-Bibliothek verfügbar ist. Das (etwas veraltete) Tutorial ist hier: https://rare-technologies.com/doc2vec-tutorial/ und sicher sein, meine Antwort hier mit der aktuellen Version zu überprüfen: http://stackoverflow.com/questions/ 31321209/doc2vec-how-to-get-Dokument-Vektoren/39329194 # 39329194 –

Antwort

1
  1. Wenn Sie word2vec Modell trainiert haben, können Sie Wort-Vektor durch __getitem__ Methode

    model = gensim.models.Word2Vec(sentences) print(model["some_word_from_dictionary"])

  2. Leider bekommen, Einbettungen von word2vec/doc2vec nicht von einer Person (im Gegensatz zum Thema interpretiert Vektoren von LdaModel)

P/S Wenn Sie Texte im Objekt in Ihre Aufgaben haben, dann sollten Sie Doc2Vec mod verwenden el