2017-11-02 2 views
1

Ich mache eine Sentiment-Analyse von Twitter, aber meine Tweets sind auf Spanisch, also kann ich nicht ordentlich Text verwenden, um die Wörter zu klassifizieren. Weiß jemand, ob es ein ähnliches Paket auf Spanisch gibt?tidytext R in Spanisch - jede Alternative?

Danke!

+0

Vielleicht ist es nicht die beste Option, aber ich schlage vor, mit 'translateR'-Paket ins Englische zu übersetzen und dann mit tidytext zu klassifizieren. Allerdings, wenn Sie ein wenig Maschinen lernen Algorithmen. Es gibt mehrere Algorithmen zum Textclustering. –

Antwort

1

Es gibt leider nicht viele gute Open-Source-Optionen für Sentiment-Lexika in nicht-englischen Sprachen. Sie können die NRC lexicon in anderen Sprachen von den Autoren anfordern; Es wurde von Google Translate übersetzt (was natürlich Unsicherheit mit sich bringt, aber insgesamt gesehen insgesamt OK ist) und die Autoren sagen, dass sie es für Forschungszwecke verschenken, aber für die kommerzielle Nutzung berechnen.

0

Ich laufe auf das gleiche Problem mit nicht-Englisch Textmining. Ich fand udpipe, die ein von Bnosac entwickeltes Paket ist. Es ist ein Natural Language Processing-Toolkit, das sprachunabhängige "Tokenization", "Teile der Sprachmarkierung", "Lemmatisierung", "morphologische Merkmalsmarkierung" und "Abhängigkeitsparsing" von Rohtext bereitstellt. Beachten Sie, dass das Paket keine Sentiment-Tags enthält. Diese müssen Sie woanders finden.

Es unterstützt eine Vielzahl von nicht-englischen Sprachen.

Sie können mehr über ihre blog erfahren, auf der Webseite von udpipe oder auf github

P. S. Ich habe keine Verbindung mit ihnen.