2016-06-08 4 views
2

Ich mache ein webscraping, um etwas Text mit schönen Suppe zu extrahieren.Wie bekomme ich Offset-Position eines Textes in HTML-Seite in Python

Ich extrahiere erfolgreich den erforderlichen Text von der Webseite, aber meine neue Anforderung ist zusammen mit dem Text, den ich brauche, um die Offset-Nummer/Position zu extrahieren, wo der Text tatsächlich im Dokument begonnen und beendet wurde.

Gibt es eine Möglichkeit dafür mit einer schönen Suppe oder irgendwelchen hilfreichen Paketen?

Bitte geben Sie Ihre Gedanken und Anregungen ...

Dank

Antwort

0

Versuchen folgenden Code

import re 

DATA = "This is test message" 

for match in re.finditer(r'(?s)((?:[^\n][\n]?)+)', DATA): 
    print match.start(), match.end() 

Ausgang

zu verwenden
Verwandte Themen