2017-11-18 15 views
0

Ich bin neu in GloVe. Ich lief erfolgreich ihre demo.sh wie auf ihrer Website angegeben. Nach dem Ausführen der Demo habe ich mehrere Dateien erstellt wie vocab, vectors usw. Aber sie haben keine Dokumentation oder irgendetwas, das beschreibt, welche Dateien wir verwenden müssen und wie man am meisten ähnliche Wörter findet.Ähnliche Begriffe finden mit Glove

Also, helfen Sie mir bitte die ähnlichsten Wörter mit einem Wort in GloVe (mit Kosinusähnlichkeit) zu finden? (z.B. wie most.similar in Gensim word2vec)

Bitte helfen Sie mir!

Antwort

1

Es spielt keine Rolle, wie Wortvektoren generiert werden, Sie können immer die Kosinusähnlichkeit zwischen den Wörtern berechnen. Der einfachste Weg, um zu erreichen, was Sie gebeten wird (unter Berücksichtigung Sie GENSIM haben):

python -m gensim.scripts.glove2word2vec –input <GloVe vector file> –output <Word2vec vector file> 

Dies wird Handschuh Vektor-Datei-Format konvertieren W2V. Sie können es auch manuell tun - fügen Sie einfach eine zusätzliche Zeile zu Ihrer GloVe-Datei hinzu, die die Gesamtzahl der Vektoren und deren Dimensionalität am Anfang der Datei enthält. Es sieht etwas ein kin von:

180000 300 
<The rest of your file> 

Danach kann man einfach die Datei in GENSIM laden und alles funktioniert, als ob es ein regelmäßiges W2V Modell.

+0

Vielen Dank für Ihre großartige Antwort. Ich habe versucht, das demo.sh zu bearbeiten und es für meine Textdatei zu verwenden. Ich bekomme jedoch einen Fehler mit dem Hinweis '28987 Segmentierungsfehler: 11 $ BUILDDIR/glove -save-Datei $ SAVE_FILE -input-file $ COOCCURRENCE_SHUF_FILE -iter $ MAX_ITER -vector-size $ VECTOR_SIZE -vocab-Datei $ VOCAB_FILE' können Sie bitte lassen Ich weiß, warum das passiert? –

+0

oder kannst du mir bitte einen konsistenten Weg geben, meine eigenen GloVe-Modelle zu bauen? –

Verwandte Themen