Ich verwende tm
und wordcloud
für die Durchführung einiger grundlegende Text Mining in R. Der Text verarbeitet enthält viele Wörter, die bedeutungslos sind wie asfdg, aawptkr und ich müssen solche Wörter zu filtern. Die nächste Lösung, die ich gefunden habe, ist library(qdapDictionaries)
und Erstellen einer benutzerdefinierten Funktion, um die Gültigkeit von Wörtern zu überprüfen.Entfernen bedeutungslose Wörter aus dem Korpus in R
library(qdapDictionaries)
is.word <- function(x) x %in% GradyAugmented
# example
> is.word("aapg")
[1] FALSE
Der Rest des Textes Bergbau ist:
curDir <- "E:/folder1/" # folder1 contains a.txt, b.txt
myCorpus <- VCorpus(DirSource(curDir))
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus,foo) # foo clears meaningless words from corpus
Das Problem is.word()
funktioniert gut ist Datenrahmen für den Umgang mit, aber wie es Handhabung für Korpus zu benutzen?
Dank
hallo check 'content_transformer' es ist, was Sie brauchen –
@ s.brunel,' content_transformer' arbeitet mit Funktion, die Corpus ändern, 'is.word' gibt gerade zurück True/False – parth