Ich habe von Ronak Shah und akrun gelernt (in this post) wie einen regulären Ausdruck zu konstruieren alle Begriffe von einem Datenrahmen (alldata in meinem Beispiel) mit Ausnahme der Wörter auszuschließen,Mit R, wie benutze ich str_extract in diesem Fall?
^\ BWORD1 | WORD2 | WORD3 | Word4 | WORD5 \>
aber aus irgendwelchen Gründen, herausfinden kann nicht, warum es mir gibt
"WORD2", "WORD3", NA
statt
"WORD1 WORD2 WORD5", "WORD3", NA
hier ist mein Beispiel:
library(stringr)
alldata <- data.frame(toupper(c("word1 anotherword word2 word5", "word3", "none")))
names(alldata)<-"columna"
removeex <- c("word1" , "word2" ,"word3" ,"word4", "word5")
regularexprex <- toupper(paste0("^\\b",paste0(removeex, collapse = "|"), "\\>"))
alldata$columnb <- str_extract(alldata$columna, regularexprex)
Ich habe versucht, + hinzuzufügen, oder * bei das Ende des regulären Ausdrucks, aber ohne Auswirkungen.
Aufgrund der Tatsache, dass ich ein Anfänger auf Regex bin, vermisse ich sicherlich etwas, kann mir jemand dabei helfen? Grüße,
Sie meinen, Sie müssen NA für alle Einträge in einer bestimmten Liste erhalten? –
Ich möchte alle Wörter innerhalb des Datenrahmens, die in der Liste vorhanden sind, behalten, den Rest löschen. Wenn nicht, werde ich eine NA bekommen. Tut mir leid, dass ich nicht klar bin. –