2016-06-08 9 views
1

Wo finde ich eine erschöpfende Liste von Stoppwörtern? Die eine, die ich habe, ist ziemlich kurz und scheint für wissenschaftliche Texte nicht anwendbar zu sein. Ich erstelle lexikalische Ketten, um Schlüsselthemen aus wissenschaftlichen Arbeiten zu extrahieren. Das Problem ist, dass Wörter wie based, regarding usw. auch als Stoppwörter betrachtet werden sollten, da sie nicht viel Sinn ergeben.Wo finde ich eine erschöpfende Liste von Stoppwörtern?

Antwort

1

Sie können an bestehende Stoppwort-Listen auch leicht hinzufügen . Z.B. verwenden Sie den im NLTK Toolkit:

from nltk.corpus import stopwords 

und fügen Sie dann, was Sie denken, fehlt:

stopwords = stopwords.words('english')+["based", "regarding"] 

Die ursprüngliche NLTK Liste wird here beschrieben.

1

Es ist schwierig, eine erschöpfende Liste von Stoppwörtern zu finden, da ein bestimmtes Wort als Stoppwort in einer bestimmten Domäne betrachtet werden kann, aber in einer anderen Domäne ein wichtiges Wort ist.

Sie einen Blick auf einige Listen von Stoppwörter nehmen könnte:

http://blog.adlegant.com/how-to-install-nltk-corporastopwords/

http://www.lextek.com/manuals/onix/stopwords1.html

http://www.ranks.nl/stopwords

http://xpo6.com/list-of-english-stop-words/

+0

Vielleicht ist es in diesem Fall wichtiger, nach einem domänenspezifischen Wörterbuch zu suchen? (Ich benutze WordNet) ... Ich bin ein Neuling in NLP – Klue

Verwandte Themen