Mit gensim word2vec, baute ein CBOW-Modell mit einer Reihe von Prozessdateien für die Darstellung von Wort als Vektor in einem Named-Entity-Erkennungsproblem, aber ich möchte wissen, wie zu bewerten meine Darstellung von Wörtern. Wenn ich andere Datensätze wie wordsim353 (NLTK) oder andere Online-Datensätze von Google verwende, funktioniert das nicht, weil ich das Modell speziell für meine Domäne erstellt habe. Wie evaluiere ich meine Word2vec-Darstellung von Wortvektoren. Ich möchte, dass Wörter, die zu einem ähnlichen Kontext gehören, näher im Vektorraum sind. Wie stelle ich sicher, dass das Build-Modell das tut?Wie man word2vec auf einer spezifischen Kontextdatei auswerten kann
Ich begann mit einer Technik namens ungerade aus. ZB:
model.wv.doesnt_match("breakfast cereal dinner lunch".split()) --> 'cereal'
ich mein eigenes Daten-Set (für die Validierung) die Worte in der Ausbildung von word2vec .Started mit mit der Einnahme von drei Worten ähnlichen Kontext zu bewerten und ein ungerades Wort aus context.But der Genauigkeit des mein Modell ist nur 30%.
Wird die obige Methode wirklich helfen, mein w2v Modell zu bewerten? Oder gibt es einen besseren Weg?
Ich möchte mit Word_similarity Maß gehen, aber ich brauche eine Referenz-Score (Mensch bewertet), um mein Modell zu bewerten, oder gibt es Techniken dafür? Bitte schlagen Sie Ideen oder Techniken vor.