Was ist der Unterschied zwischen den in en_core_web_lg und en_vectors_web_lg angegebenen Wortvektoren? Die Anzahl der Schlüssel ist unterschiedlich: 1.1m vs 685k. Ich nehme an, dies bedeutet, dass en_vectors_web_lg eine breitere Abdeckung hat, indem morphologische Informationen beibehalten werden, die etwas mehr Tokens ergeben, da sie beide auf dem gemeinsamen Crawl-Corpus trainiert sind, aber eine unterschiedliche Anzahl von Token haben.Spacy 2.0 de_vectors_web_lg vs en_core_web_lg
Antwort
Das Paket en_vectors_web_lg
enthält genau jeden Vektor, der vom ursprünglichen GloVe-Modell bereitgestellt wird. Das Modell en_core_web_lg
verwendet das Vokabular aus dem Modell v1.x en_core_web_lg
, das alle Einträge, die weniger als 10 Mal in einem 10-Milliarden-Wort-Dump von Reddit-Kommentaren auftraten, aus dem Speicher abschnitt.
In der Theorie sollten die meisten Vektoren, die entfernt wurden, Dinge sein, die der space Tokenizer niemals erzeugt. Frühere Experimente mit den vollständigen GloVe-Vektoren lagen jedoch etwas höher als das aktuelle NER-Modell - es ist also möglich, dass wir etwas verpassen, indem wir die zusätzlichen Vektoren verlieren. Ich werde mehr Experimente zu diesem Thema machen und wahrscheinlich das Modell lg
auf die ungeschriebene Vektortabelle umstellen, besonders jetzt, da wir das md
Modell haben, das einen besseren Kompromiss schlägt als das aktuelle lg
Paket.
- 1. Spacy 2.0 NER Training
- 2. Spacy-Nightly (spacy 2.0) Problem mit "thinc.extra.MaxViolation hat falsche Größe"
- 3. SAML 2.0 vs OpenID
- 4. OAuth 2.0 vs JWT
- 5. SpaCy Modell Trainingsdaten: WikiNER
- 6. Spacy Verbindungsfehler
- 7. Couchbase 2.0 vs Couchbase 1.8?
- 8. Spark Abwärtskompatibilität 1.6 vs 2.0
- 9. Spark 2.0 Dataset vs Dataframe
- 10. SAML 1x vs SAML 2.0
- 11. Multiword-Ausdruckserkennung in Spacy
- 12. POS-Tagging mit spaCy
- 13. Kollokationen mit spaCy
- 14. Spacy Spanisch Tokenizer verwenden
- 15. Konditional über Spacy erkennen?
- 16. Substantiv-Ausdrücke mit spacy
- 17. Parsing Spacy Ausgabe
- 18. Spacy Japan Tokenizer
- 19. Lemmatisierung mit Spacy
- 20. Import Spacy Fehler
- 21. Apache Hadoop-Versionen 2.0 vs. 0.23
- 22. OpenGL ES Leistung 2.0 vs 1.1 (iPad)
- 23. OpenGL ES 2.0: glVertexAttribPointer vs vec3
- 24. .NET 2.0 vs .NET 4.0 Laufzeitzuweisungsleistung
- 25. Typoskript 2.0 + VS 2015 @types funktioniert nicht
- 26. Empfänger vs Publikum in SAML 2.0
- 27. Eckig js 1.0 vs Eckig js 2.0
- 28. Spark 1.6 vs Funken 2.0 Produktivität
- 29. OpenGL ES 2.0: Attribut vs Layout?
- 30. MongoDB C# -Treiber 2.0 InsertManyAsync vs BulkWriteAsync