die folgenden Zeilen verwendet es vorverarbeitet Text in einer bestimmten Spalte meines Datenrahmen möglich ist:Preprocessing: Textanalyse auf vielen Spalten aus einer Datenrahmen
#text to lower case
df$name <- tolower(df$name)
#remove all special characters
df$name <- gsub("[[:punct:]]", " ", df$name)
#remove long spaces
df$name <- gsub("\\s+"," ",str_trim(df$name))
Ich mag diese Vorverarbeitung Regeln in allen Spalten implementieren (erwarten id) eines Datenrahmens wie folgt aus:
df <- data.frame(id = c("A","B","C"), D = c("mytext 11","mytext +", "!!"), E = c("text","stg","1.2"), F = c("press","remove","22"))
Sie sollten Liefern Sie eine Datenprobe, wenn Sie Antworten erhalten möchten – Seymour
@Seymour, wie Sie sehen können Ich biete Beispieldaten. – PitterJe