Gensim save_word2vec_format() vs. model.save()

Ich benutze Gensim-Version 0.12.4 und habe zwei separate Worteinbettungen mit dem gleichen Text und den gleichen Parametern trainiert. Nach dem Training berechne ich die Pearsons-Korrelation zwischen Wortauftrittshäufigkeit und Vektorlänge. Ein Modell, das ich unter Verwendung save_word2vec_format(fname, binary=True) trainierte und dann unter Verwendung load_word2vec_format der anderen geladen wurde, die ich unter Verwendung model.save(fname) trainierte und dann geladen wurde, Word2Vec.load() verwendend. Ich verstehe, dass der word2vec-Algorithmus nicht deterministisch ist, so dass die Ergebnisse variieren werden, aber der Unterschied in der Korrelation zwischen den beiden Modellen ist ziemlich drastisch. Welche Methode sollte ich in diesem Fall verwenden?Gensim save_word2vec_format() vs. model.save()

Quelle

2017-05-18 GNMO11

EDIT: Dies war als Kommentar gedacht. Ich weiß nicht, wie ich es jetzt ändern kann, tut mir leid

Korrelation zwischen dem Wort Häufigkeit-Auftreten und Vektor-Länge ich nicht ganz folgen - sind nicht alle Ihre Vektoren die gleiche Länge? Oder beziehen Sie sich nicht auf die Einbettungsvektoren?

Quelle

2017-05-18 15:01:37 patrick

Entschuldigung dafür, dass ich nicht klar bin - ich verwende die Größe der Einbettungsvektoren. I.e. '' numpy.linalg.norm (Modell [Wort]) '' – GNMO11

Gensim save_word2vec_format() vs. model.save()

Antwort

Verwandte Themen