Ich arbeite an einem Text Mining-Projekt und versuche, den Text zu reinigen - Wörter im Singular/Plural Formen, Verben in verschiedenen Zeitformen und Rechtschreibfehler. Meine Probe sieht so aus:Word stemming in R
Ich habe versucht, die WordStem-Funktion in SnowballC-Paket zu verwenden. Allerdings sind die Ergebnisse falsch:
"appl" "appl" "wife" "wive" "win" "won" "win" "winner" "orang" "orang" "oreng"
Was würde Ich mag, um zu sehen ist:
"apple" "apple" "wife" "wife" "win" "win" "win" "winner" "orange" "orange" "orange"
Vielleicht möchten Sie sich die Funktion 'stemCompletion' im tm-Paket ansehen. – Dason
Was erhoffen Sie sich mit den Ergebnissen? Für viele Anwendungen der Textanalyse ist es ausreichend, dass zwei verschiedene Formen eines Wortes zum selben Stamm mappen, ohne dass dieser Stamm das eigentliche englische Stammwort sein muss. Insbesondere verwendet die Funktion, die Sie anrufen, eine Version von Dr. Martin Porters beliebtem Stammalgorithmus, der nicht versucht, die tatsächliche englische Wurzel zu finden. Die Ergebnisse sind nicht "falsch" - es macht das, wofür es entwickelt wurde, nur nicht das, was Sie erwartet haben. –