Guten Tag, Ich versuche, eine sentimentale Analyse-Anwendung in Python (mit Naive-Bayes-Klassifikator) mit dem Ziel zu schreiben, Phrasen von Nachrichten als positiv oder negativ zu kategorisieren. Und ich habe ein bisschen Mühe, einen geeigneten Korpus dafür zu finden. Ich habe versucht, mit "General Inquirer" (http://www.wjh.harvard.edu/~inquirer/homecat.htm) was funktioniert, aber ich habe ein großes Problem dort. Da es sich um eine Wortliste, kein Ausdruck Liste ich folgendes Problem beobachten beim Versuch, den folgenden Satz zu beschriften:Phrasenkorpus für sentimentale Analyse
Er ist nicht zu gewinnen, wird erwartet.
Dieser Satz wird als positiv eingestuft, was falsch ist. Der Grund dafür ist, dass "gewinnen" positiv ist, aber "nicht" keine Bedeutung hat, da "nicht gewinnen" eine Phrase ist. Kann jemand vorschlagen, ein Korpus oder eine Arbeit für dieses Problem? Ihre Hilfe und Einblicke sind sehr geschätzt.
Als Randbemerkung: Erwarten Sie, naiver Bayes hier zu arbeiten? Nehmen wir an, dass alle unsere Funktionen "gewinnen", "verlieren" und "nicht" sind und "gewinnen" und "verlieren" in gleichen Proportionen erscheinen. Dann wird entweder "gewinnen" oder "nicht gewinnen" falsch klassifiziert. –
Ich glaube, deshalb fragt er nach Phrasen als Features. – phs
Ich denke, er verwendet Wörter als Funktionen, um Phrasen zu klassifizieren ... –