Extrahieren von Text zwischen einem bestimmten Bereich

-1

Ich habe Schwierigkeiten, eine Lösung zu finden, um den Text aus diesem PDF-Dokument zu extrahieren, das ich gerade verarbeite.Extrahieren von Text zwischen einem bestimmten Bereich

Der Text sieht wie folgt aus:

"* text text text\n text text text.\n  * text text text text text text.\n"

Ich versuche, mit den folgenden, als separate Werte in einem Vektor, um am Ende:

"* text text text\n text text text." 
"* text text text text text text."

ich kein Begrenzer laufen auf \n, und wenn ich versuche, ein Trennzeichen bis zum nächsten Punkt auszuführen, schlägt es fehl. Wie ich es verstehe, muss ich den Bereich zwischen zwei Kugeln begrenzen und muss die Länge bei der letzten \n erstellen und ich bin nur nicht sicher, wie das geht.

Dies ist die regex Abfrage, die ich jetzt haben:

"\\* (.)*\n"

Quelle

2017-11-30 Hanna

Sind '\ n 'wörtliche oder sind sie Zeichen Newline passend? – ctwheels

Sie sind neue Zeilenzeichen, aber es ist ein Textdokument, also gehe ich davon aus, dass es dieselben behandelt. – Hanna

Split auf '\ s + (? = \ *)' – ctwheels

Sie strsplit verwenden können:

string = "* text text text\n text text text.\n  * text text text text text text.\n" 

unlist(strsplit(string, "\n(\\s{2,}|$)")) 
# [1] "* text text text\n text text text." "* text text text text text text."

Eine weitere Option ist mit regexstr_extract von stringr Einwickeln der Regex zu verwenden und die dotall Verwendung Option:

library(stringr) 

unlist(str_extract_all(string, regex("\\*.+?\\.", dotall = TRUE))) 
# [1] "* text text text\n text text text." "* text text text text text text."

Hinweis

Mit dotall=TRUE, . wird nun auch \n entsprechen.
? in .+? faul ermöglicht

Quelle

2017-11-30 20:38:47 useR

Extrahieren von Text zwischen einem bestimmten Bereich

Antwort

Verwandte Themen