Ich habe eine Datei 'check_text.txt', die enthält "sagte sagen, sagt machen gemacht". Ich würde gerne Stemming machen, um "sagen sagen sagen machen" zu bekommen. Ich habe versucht, stemDocument
in tm
Paket zu verwenden, wie folgt, aber nur bekommen "sagte sagen sagen machen". Gibt es eine Möglichkeit, auf Vergangenheitsformen zu stemmen? Ist es notwendig, dies in natürlicher Sprache zu tun? Vielen Dank!stemDocment in tm-Paket funktioniert nicht in der Vergangenheitsform Wort
filename = 'check_text.txt'
con <- file(filename, "rb")
text_data <- readLines(con,skipNul = TRUE)
close(con)
text_VS <- VectorSource(text_data)
text_corpus <- VCorpus(text_VS)
text_corpus <- tm_map(text_corpus, stemDocument, language = "english")
as.data.frame(text_corpus)$text
EDIT: Ich habe auch versucht wordStem
in SnowballC
Paket
> library(SnowballC)
> wordStem(c("said", "say", "says", "make", "made"))
[1] "said" "sai" "sai" "make" "made"