Ich habe Schwierigkeiten, eine Lösung zu finden, um den Text aus diesem PDF-Dokument zu extrahieren, das ich gerade verarbeite.Extrahieren von Text zwischen einem bestimmten Bereich
Der Text sieht wie folgt aus:
"* text text text\n text text text.\n * text text text text text text.\n"
Ich versuche, mit den folgenden, als separate Werte in einem Vektor, um am Ende:
"* text text text\n text text text."
"* text text text text text text."
ich kein Begrenzer laufen auf \n
, und wenn ich versuche, ein Trennzeichen bis zum nächsten Punkt auszuführen, schlägt es fehl. Wie ich es verstehe, muss ich den Bereich zwischen zwei Kugeln begrenzen und muss die Länge bei der letzten \n
erstellen und ich bin nur nicht sicher, wie das geht.
Dies ist die regex Abfrage, die ich jetzt haben:
"\\* (.)*\n"
Sind '\ n 'wörtliche oder sind sie Zeichen Newline passend? – ctwheels
Sie sind neue Zeilenzeichen, aber es ist ein Textdokument, also gehe ich davon aus, dass es dieselben behandelt. – Hanna
Split auf '\ s + (? = \ *)' – ctwheels