Wenn word2vec mit GENSIM Ausbildung, Sie das Ergebnis erreichen, ist eine Darstellung der Worte in Ihrem Vokabular als Vektoren. Die Dimension dieser Vektoren ist die Größe des neuronalen Netzes.
Die vortrainierte word2vec Modelle enthalten lediglich eine Liste derjenigen Vektoren, die auf einem großen corpus vortrainierte waren. Sie finden vortrainierte Vektoren in verschiedenen Größen.
Wie diese Vektordarstellungen zu verwenden? Das hängt davon ab, was Sie tun möchten. Einige interessante Eigenschaften wurden für diese Vektoren gezeigt: Es wurde gezeigt, dass der Vektor für "Mann" + "König" - "Frau" oft zu der engsten Übereinstimmung mit dem Vektor "Frau" führt. Sie können auch in Erwägung ziehen, die Wortvektoren als Eingabe für ein anderes neuronales Netzwerk/Berechnungsmodell zu verwenden.
Gensim ist eine sehr optimierte Bibliothek zur Durchführung der CBOW- und Skip-Gram-Algorithmen. Wenn Sie jedoch Ihr neuronales Netzwerk wirklich selbst aufbauen möchten, müssen Sie zuerst die Struktur von CBOW und skip-gram kennen lernen um es zum Beispiel in Keras zu codieren. Dies sollte nicht besonders komplex sein und eine Google-Suche nach diesen Themen sollte Ihnen viele Ergebnisse liefern, um Ihnen zu helfen.