Wo finde ich eine erschöpfende Liste von Stoppwörtern? Die eine, die ich habe, ist ziemlich kurz und scheint für wissenschaftliche Texte nicht anwendbar zu sein. Ich erstelle lexikalische Ketten, um Schlüsselthemen aus wissenschaftlichen Arbeiten zu extrahieren. Das Problem ist, dass Wörter wie based
, regarding
usw. auch als Stoppwörter betrachtet werden sollten, da sie nicht viel Sinn ergeben.Wo finde ich eine erschöpfende Liste von Stoppwörtern?
1
A
Antwort
1
Sie können an bestehende Stoppwort-Listen auch leicht hinzufügen . Z.B. verwenden Sie den im NLTK Toolkit:
from nltk.corpus import stopwords
und fügen Sie dann, was Sie denken, fehlt:
stopwords = stopwords.words('english')+["based", "regarding"]
Die ursprüngliche NLTK Liste wird here beschrieben.
1
Es ist schwierig, eine erschöpfende Liste von Stoppwörtern zu finden, da ein bestimmtes Wort als Stoppwort in einer bestimmten Domäne betrachtet werden kann, aber in einer anderen Domäne ein wichtiges Wort ist.
Sie einen Blick auf einige Listen von Stoppwörter nehmen könnte:
http://blog.adlegant.com/how-to-install-nltk-corporastopwords/
Verwandte Themen
- 1. Wo finde ich eine Liste mit hebräischen Stoppwörtern?
- 2. Wo finde ich eine Liste der Tastaturcodes?
- 3. Gibt es eine erschöpfende Liste von Standardattributen?
- 4. Wo finde ich eine Liste von Anti-Patterns für Datenbankdesign?
- 5. Wo finde ich eine Liste der Eigenschaften von Transformer.setOutputProperty?
- 6. Wo finde ich eine Liste von "mysqldump" -Ausgangscodes?
- 7. Wo finde ich eine umfassende Liste von x86_64 Montageanleitungen?
- 8. Wo finde ich eine Liste von Standard-HTTP-Header-Werten?
- 9. Wo finde ich eine Liste von Windows-API-Konstanten
- 10. Wo finde ich eine Liste von Artikeln im Android-Stil?
- 11. Wo finde ich eine Liste von "universellen" Linux-Binärdateien?
- 12. null nicht erschöpfende Liste
- 13. Wo finde ich eine Liste der numerischen JSHint-Fehlercodes?
- 14. Wo finde ich eine Liste der Sprache + Ländercodes?
- 15. Wo finde ich eine gute mclient einführung?
- 16. Wo finde ich eine Liste der Powershell .NET Type Accelerators?
- 17. YouTube API V3: Wo finde ich eine Liste aller 'videoCategoryId'?
- 18. Wo finde ich eine Liste aller HQL-Schlüsselwörter?
- 19. Wo finde ich eine vollständige (!) Liste aller Hibernate-Ereignisse?
- 20. Wo finde ich cordova.js?
- 21. Wo finde ich Browserstatistiken?
- 22. Wo finde ich eine Erklärung aller Transformationsmatrixfelder?
- 23. Wo finde ich ipseccmd.exe?
- 24. Wo finde ich GladeGen?
- 25. Wo finde ich Protagonisten?
- 26. Wo finde ich "j_security_check"?
- 27. Wo finde ich eine ausführliche DCOM-Dokumentation?
- 28. Wo finde ich ninject.web.mvc.dll?
- 29. Wo finde ich TableDiff.exe?
- 30. Wo finde ich CabWiz.exe
Vielleicht ist es in diesem Fall wichtiger, nach einem domänenspezifischen Wörterbuch zu suchen? (Ich benutze WordNet) ... Ich bin ein Neuling in NLP – Klue