2010-09-23 9 views
13

Ich bin auf der Suche nach einer Java-basierten Lösung zu einer Anforderung für die Analyse von Sätzen zu protokollieren, ob ein Schlüsselwort positiv oder negativ verwendet wurde.Java-Text-Analyse-Bibliotheken

Ie Das Schlüsselwort könnte ‚Kohl‘ und der Satz sein: -

‚Ich mag Kohl aber nicht Erbsen‘

Und ich würde ein Java Textanalysators irgendeine Art wie diese zu melden Sie sich als positiv. Können dafür die Lucene-Bibliotheken (Hibernate-Search) genutzt werden?

Irgendwelche Gedanken?

Antwort

16

Sie suchen nach "Sentiment Analyse". Eine Möglichkeit ist LingPipe, die freundlicherweise link to their competitors also. Jeff Dalton hat auch eine große Liste von Verarbeitungstools für natürliche Sprache in his blog.

+1

Hier gibt es eine Fülle von Sachen. Es wird einige Zeit brauchen, um es zu durchforsten. Ich werde über meine Ergebnisse berichten - aber vielen Dank für die Hinweise. – jaseFace

+0

Ja, melden Sie sich bitte zurück, wenn Sie etwas Nützliches finden. – ishnid

0

Werfen Sie einen Blick auf Mahout Taste, die auf Lucene baut, aber fügt eine Menge von dem, was Sie brauchen aus der Box. (Bearbeiten) Ich sollte hinzufügen, Mahout Taste ist nur bezogen zu dem, was Sie suchen und nicht ein 100% Übereinstimmung.

+3

(Ich bin der Autor.) Geschmack ist eine kollaborative Filter-Engine. Das Kapselungsprojekt Mahout betrifft das allgemeine Data Mining, enthält jedoch keine Sentiment-Analyse. –

1

Ich bezweifle, dass es so etwas gibt. Lucene kann es definitiv nicht out of the box tun.

Wie definieren Sie selbst "ob ein Schlüsselwort positiv oder negativ verwendet wurde" in einer Weise, die programmgesteuert ausgewertet werden kann? Um es richtig zu machen, müssten Sie den Text auf seine tatsächliche Bedeutung hin analysieren, was ein KI-Problem ist, das nicht einmal im entferntesten gelöst ist.

Ich nehme an, Sie könnten es lösen, indem Sie einfach eine statistische Analyse durchführen, ob das Keyword häufiger positiv (wie, gut, groß, wunderbar) oder negativ (schlecht, hass, beschissen, verdammt) erscheint, aber auch dort werden Negationen, Sarkasmus und komplexe Satzstrukturen problematisch.

+0

Ich erinnere mich an einen Übersetzer, der mit "der Geist ist willig, aber das Fleisch ist schwach" begann und kam mit "der Wein ist gut, aber das Fleisch ist verfault". –