Ich habe einen Datensatz mit unstrukturierten Textdaten.extrahieren Satz, der ein Muster hat
Aus dem Text, den ich Sätze extrahieren möge, die folgenden Worte:
education_vector <- c("university", "academy", "school", "college")
Zum Beispiel aus dem Text I am a student at the University of Wyoming. My major is biology.
I I am a student at the University of Wyoming.
Aus dem Text I love statistics and I enjoy working with numbers. I graduated from Walla Wall Community College
Ich will bekommen I graduated from Walla Wall Community College.
bekommen und so weiter
Ich versuchte mit grep
Funktion, aber es ergab falsche Ergebnisse
Bitte fügen Sie die Art und Weise, dass Sie grep in Ihrer Frage aufgerufen haben. – G5W
grep (einfügen (education_vector, collapse = '|'), unlist (strsplit (str1, "(. *?) \\ .. *")), unlist (strsplit (str1, '(? <= \\.) \\ s + ', perl = TRUE)), Wert = TRUE) –