Ich baue einen Textklassifizierer, der Text in Themen klassifizieren wird.Finden Sie 'moderne' nltk Wörter Korpus
In der ersten Phase meines Programms als Teil der Reinigung der Daten, entferne ich alle nicht-englischen Wörter. Dazu verwende ich das nltk.corpus.words.words() Korpus. Das Problem mit diesem Korpus ist, dass es "moderne" englische Wörter wie Facebook, Instagram usw. entfernt. Kennt jemand ein anderes, "moderneres" Korpus, das ich ersetzen oder mit dem gegenwärtigen verbinden kann?
Ich bevorzuge nltk Korpus, aber ich bin offen für andere Vorschläge.
Vielen Dank im Voraus
Wahrscheinlich relevanter als das markierte "Duplikat": https://stackoverflow.com/questions/3788870/how-to-check-if-a-word-is-anenchword-with-python – alexis