2017-04-18 3 views
0

Ich frage mich, warum das vortrainierte "Fasttext-Modell" mit Wiki (Koreanisch) nicht gut zu funktionieren scheint! :(Warum Cosine_Amilarität des vortrainierten Fasttex-Modells zwischen zwei sents hoch ist, sind überhaupt nicht relativ?

model = fasttext.load_model ("./ Fasttext/wiki.ko.bin ")

model.cosine_similarity (" 테스트 테스트 이건 테스트 문장", "지금 아무 관계 없는 글 정말로 정말로")

(in Englisch) model.cosine_similarity ("test test ist dieser Test Satz", "jetzt nicht alle relativen docs wirklich wirklich")

0,99 .... ?? Diejenigen Satz ist nicht überhaupt relativ als Bedeutung.Daher denke ich, dass Kosinus-s die Ähnlichkeit muss niedriger sein, aber es war 0.997383 ...

Ist es unmöglich, einsame sentents mit fasttext zu vergleichen? So ist es nur möglich, doc2vec zu verwenden?

Antwort

0

Welches "Fasttext" -Code-Paket verwenden Sie?

Sind Sie sicher, dass sein cosine_similarity() entworfen wurde, um solche rohen Zeichenketten zu nehmen, und die Wörter jedes Beispiels automatisch tokenize/kombinieren, um Ähnlichkeiten auf Satzebene zu geben? (Ist diese Fähigkeit durch ihre Dokumentation oder veranschaulichende Beispiele impliziert? Oder erwartet sie möglicherweise vorbenannte Listen von Wörtern?)

Verwandte Themen