Ich laufe auf das gleiche Problem mit nicht-Englisch Textmining. Ich fand udpipe
, die ein von Bnosac entwickeltes Paket ist. Es ist ein Natural Language Processing-Toolkit, das sprachunabhängige "Tokenization", "Teile der Sprachmarkierung", "Lemmatisierung", "morphologische Merkmalsmarkierung" und "Abhängigkeitsparsing" von Rohtext bereitstellt. Beachten Sie, dass das Paket keine Sentiment-Tags enthält. Diese müssen Sie woanders finden.
Es unterstützt eine Vielzahl von nicht-englischen Sprachen.
Sie können mehr über ihre blog erfahren, auf der Webseite von udpipe oder auf github
P. S. Ich habe keine Verbindung mit ihnen.
Vielleicht ist es nicht die beste Option, aber ich schlage vor, mit 'translateR'-Paket ins Englische zu übersetzen und dann mit tidytext zu klassifizieren. Allerdings, wenn Sie ein wenig Maschinen lernen Algorithmen. Es gibt mehrere Algorithmen zum Textclustering. –