Ich habe eine Reihe von Dokumenten:Entfernen von Stoppwörtern eines benutzerdefinierten Korpus in R
documents = c("She had toast for breakfast",
"The coffee this morning was excellent",
"For lunch let's all have pancakes",
"Later in the day, there will be more talks",
"The talks on the first day were great",
"The second day should have good presentations too")
In dieser Reihe von Dokumenten, würde Ich mag die Stoppwörter zu entfernen. Ich habe bereits entfernt Zeichensetzung und Kleinbuchstaben umgewandelt, mit:
documents = tolower(documents) #make it lower case
documents = gsub('[[:punct:]]', '', documents) #remove punctuation
Zuerst habe ich zu einem Corpus Objekt konvertieren:
documents <- Corpus(VectorSource(documents))
Dann versuche ich die Stoppwörter zu entfernen:
documents = tm_map(documents, removeWords, stopwords('english')) #remove stopwords
Diese letzte Zeile führt jedoch zu folgendem Fehler:
THE_P ROCESS_HAS_FORKED_AND_YOU_CANNOT_USE_THIS_COREFOUNDATION_FUNCTIONALITY___YOU_MUST_EXEC() zu debuggen.
Dies wurde bereits here gestellt, aber eine Antwort wurde nicht gegeben. Was bedeutet dieser Fehler?
EDIT
Ja, ich tm Paket verwenden. Hier
ist der Ausgang der Session():
R Version 3.0.2 (2013.09.25) Plattform: x86_64-Apfel-darwin10.8.0 (64-Bit)
Vielen Dank für Ihre Antwort. Ich bekomme den Fehler 'string muss ein atomarer Vektor sein' in der Zeile mit stringr :: str_replace_all. Irgendeine Idee, wie man das anpackt? – StatsSorceress
Aha! Gerade beantwortet meine eigene Frage: documents1 = einfügen (c (Dokumente)) Fügen Sie diese Zeile kurz vor dem Abschnitt von stopwords_regex. Danke nochmal! – StatsSorceress