Update mit R:Wie genau die Interpunktion entfernen, wenn sie mit tm Paket
Ich glaube, ich eine Abhilfe Um dieses Problem zu lösen, haben kann, nur einen Code hinzuzufügen: dtms = removeSparseTerms(dtm,0.1)
Es wird die spärlichen Zeichen im Korpus zu entfernen. Aber ich denke, das ist NUR ein Workaround, warten Sie immer noch auf die Antwort der Experten!
Kürzlich lerne ich Text Mining in R mit tm-Paket. Und ich habe eine Idee, eine Wortwolke über die Wörter in meinem ABAP-Programm in maximaler Häufigkeit zu zeichnen. Also habe ich ein R-Programm geschrieben, um dies zu realisieren.
library(tm)
library(SnowballC)
library(wordcloud)
# set path
path = system.file("texts","abapcode",package = "tm")
# make corpus
code = Corpus(DirSource(path),readerControl = list(language = "en"))
# cleanse text
code = tm_map(code,stripWhitespace)
code = tm_map(code,removeWords,stopwords("en"))
code = tm_map(code,removePunctuation)
code = tm_map(code,removeNumbers)
# make DocumentTermMatrix
dtm = DocumentTermMatrix(code)
#freqency
freq = sort(colSums(as.matrix(dtm)),decreasing = T)
#wordcloud(code,scale = c(5,1),max.words = 50,random.order = F,colors = brewer.pal(8, "Dark2"),rot.per = 0.35,use.r.layout = F)
wordcloud(names(freq),freq,scale = c(5,1),max.words = 50,random.order = F,colors = brewer.pal(8, "Dark2"),rot.per = 0.35,use.r.layout = F)
Aber in meinem ABAP-Code, enthalten einige Varianten "_" und "-" in der Variante Namen, also wenn ich dies ausgeführt:
code = tm_map(code,removePunctuation)
Der Korpus Inhalt ist nicht so richtig und so die Wortwolke ist wie folgt:
Einige Wörter sind so merkwürdig, wenn Sie "_" oder "-" entfernen.
Und dann kommentieren ich diesen Code und das Wort Wolke ist wie folgt:
Dieses Mal sind die Worte sind korrekt, aber einige unerwartete Zeichen tauchte, wie mein ABAP-Code commet ...
Haben wir also einige Methoden, mit denen wir die Interpunktion, die wir nicht wollen, genau entfernen und die gewünschten beibehalten können?
Near-Duplikat: [tm benutzerdefinierte removePunctuation außer Hashtag] (http://stackoverflow.com/questions/27951377/tm-removepuptuation-except-hashtag) – smci