2012-05-28 6 views
5

Guten Tag, Ich versuche, eine sentimentale Analyse-Anwendung in Python (mit Naive-Bayes-Klassifikator) mit dem Ziel zu schreiben, Phrasen von Nachrichten als positiv oder negativ zu kategorisieren. Und ich habe ein bisschen Mühe, einen geeigneten Korpus dafür zu finden. Ich habe versucht, mit "General Inquirer" (http://www.wjh.harvard.edu/~inquirer/homecat.htm) was funktioniert, aber ich habe ein großes Problem dort. Da es sich um eine Wortliste, kein Ausdruck Liste ich folgendes Problem beobachten beim Versuch, den folgenden Satz zu beschriften:Phrasenkorpus für sentimentale Analyse

Er ist nicht zu gewinnen, wird erwartet.

Dieser Satz wird als positiv eingestuft, was falsch ist. Der Grund dafür ist, dass "gewinnen" positiv ist, aber "nicht" keine Bedeutung hat, da "nicht gewinnen" eine Phrase ist. Kann jemand vorschlagen, ein Korpus oder eine Arbeit für dieses Problem? Ihre Hilfe und Einblicke sind sehr geschätzt.

+0

Als Randbemerkung: Erwarten Sie, naiver Bayes hier zu arbeiten? Nehmen wir an, dass alle unsere Funktionen "gewinnen", "verlieren" und "nicht" sind und "gewinnen" und "verlieren" in gleichen Proportionen erscheinen. Dann wird entweder "gewinnen" oder "nicht gewinnen" falsch klassifiziert. –

+0

Ich glaube, deshalb fragt er nach Phrasen als Features. – phs

+0

Ich denke, er verwendet Wörter als Funktionen, um Phrasen zu klassifizieren ... –

Antwort

4

Siehe zum Beispiel: "Was ist toll und was nicht: Lernen, den Umfang der Negation für eine verbesserte Stimmungsanalyse zur Klassifizierung" von Councill, McDonald, und Velikovich

http://dl.acm.org/citation.cfm?id=1858959.1858969

und followups,

http://scholar.google.com/scholar?cites=3029019835762139237&as_sdt=5,33&sciodt=0,33&hl=en

z et von Morante al 2011

http://eprints.pascal-network.org/archive/00007634/

+0

Danke Georgi. Ich werde es mir auf jeden Fall ansehen. – TE0

3

In diesem Fall ist die Arbeit nicht ändert die Bedeutung des Ausdrucks expecteed zu gewinnen, ist es umgekehrt. Um dies zu identifizieren, müssten Sie den Satz POS markieren und das negative Adverb nicht auf die (ich denke) Verbalphrase als eine Negation anwenden. Ich weiß nicht, ob es einen Korpus gibt, der dir sagen würde, dass das nicht dieser Modifikator ist oder nicht.

+1

Ich liebe deine sehr unterschiedliche Geltung des Wortes "nicht" gegen Ende davon. Viel Glück für all unsere Algorithmen herauszufinden, was das negiert! :-) –