2017-11-08 7 views
1

Was ist der Unterschied zwischen den in en_core_web_lg und en_vectors_web_lg angegebenen Wortvektoren? Die Anzahl der Schlüssel ist unterschiedlich: 1.1m vs 685k. Ich nehme an, dies bedeutet, dass en_vectors_web_lg eine breitere Abdeckung hat, indem morphologische Informationen beibehalten werden, die etwas mehr Tokens ergeben, da sie beide auf dem gemeinsamen Crawl-Corpus trainiert sind, aber eine unterschiedliche Anzahl von Token haben.Spacy 2.0 de_vectors_web_lg vs en_core_web_lg

Antwort

2

Das Paket en_vectors_web_lg enthält genau jeden Vektor, der vom ursprünglichen GloVe-Modell bereitgestellt wird. Das Modell en_core_web_lg verwendet das Vokabular aus dem Modell v1.x en_core_web_lg, das alle Einträge, die weniger als 10 Mal in einem 10-Milliarden-Wort-Dump von Reddit-Kommentaren auftraten, aus dem Speicher abschnitt.

In der Theorie sollten die meisten Vektoren, die entfernt wurden, Dinge sein, die der space Tokenizer niemals erzeugt. Frühere Experimente mit den vollständigen GloVe-Vektoren lagen jedoch etwas höher als das aktuelle NER-Modell - es ist also möglich, dass wir etwas verpassen, indem wir die zusätzlichen Vektoren verlieren. Ich werde mehr Experimente zu diesem Thema machen und wahrscheinlich das Modell lg auf die ungeschriebene Vektortabelle umstellen, besonders jetzt, da wir das md Modell haben, das einen besseren Kompromiss schlägt als das aktuelle lg Paket.