2017-07-27 2 views
1

ich das Wörterbuch von Spacy Standard en Modell zu erkunden, wenn ich auf eine Inkonsistenz kam ich nicht verstehe:Bekannte Wort in nlp.vocab fehlt

import spacy 
nlp = spacy.load('en') 
'irritably' in spacy.en.language_data.LEMMA_INDEX['adv'] # True 
'irritably' in nlp.vocab # False 

Bisher dies das einzige Wort ist, kann ich nicht in nlp.vocab finden . Irgendeine Idee, warum ist es nicht da? Was ist mein Missverständnis hier?

Antwort

2

Der Grund für die Größe des Standard en Modell sein könnte, ist Standardmodell der kleinere 50MB Modell en_core_web_sm, deren Daten könnten nicht erschöpfend sein, der typische usecase nicht mit dem größeren Modell en_core_web_md

>>> nlp = spacy.load('en_core_web_md') 
>>> u'irritably' in spacy.en.language_data.LEMMA_INDEX['adv'] 
True 
>>> u'irritably' in nlp.vocab 
True 

occure hat Ich nehme an, dass vocab und language_data möglicherweise nicht vollständig konsistent sind und von der Menge der Trainingsdaten abhängen, die das Modell hat.