2016-12-15 3 views
3

Ich versuche, Stoppwörter vor der Modellierung des Themas zu entfernen. Ich habe bemerkt, dass einige Negationswörter (nicht, noch nie, keine, usw.) normalerweise als Stoppwörter betrachtet werden. Zum Beispiel enthalten NLTK, spacy und sklearn "nicht" in ihren Stoppwortlisten. Wenn wir jedoch "nicht" aus diesen Sätzen entfernen, verlieren sie die signifikante Bedeutung und das wäre für die Themenmodellierung oder Stimmungsanalyse nicht korrekt.NLP - warum ist "nicht" ein Stoppwort?

Kann jemand bitte erklären, warum diese Negationswörter normalerweise Stoppwörter sind?

+1

Diese Frage fühlt sich an, als würde sie bessere Antworten auf einer spezialisierteren Seite bekommen, da es sich um die Theorie hinter der Software handelt und nicht darum, wie man damit programmiert. Vielleicht http://datascience.stackexchange.com/? – IMSoP

+4

Ich stimme für das Schließen dieser Frage, da sie manuell auf einen anderen Stack Exchange migriert wurde: http://datascience.stackexchange.com/questions/15765/nlp-why-is-not-a-stop-word – IMSoP

+0

Ja zustimmen, konnte es einfach nicht selbst schließen ... So beantwortete meine eigene Frage und versuchte es zu lösen. Aber ich kann nicht bis morgen –

Antwort