Angenommen, ich analysiere einen englischen Korpus mit dem tm
Paket und mache die üblichen Reinigungsschritte.Wie erkennen Fremdwörter in Corpus?
library(tm)
data("crude")
corpus <- Corpus(crude)
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, content_transformer(removeWords)) stopwords("english"))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stemDocument)
corpus <- tm_map(corpus, PlainTextDocument)
# text matrices
tdm <- TermDocumentMatrix(corpus)
dtm<- DocumentTermMatrix(corpus)
Wie identifiziere ich die Wörter in einer anderen Sprache als die des Korpus? Ein ähnliches Problem wird mit Python here konfrontiert, aber meine Forschung ergab keine interessanten Ergebnisse.