2009-06-22 12 views
2

Ich versuche, eine Zeichenfolge Text zu nehmen, und extrahiere den Rest des Textes im Absatz/Dokument aus dem HTML.Suche nach dem Eltern-Tag einer Textzeichenfolge mit ElementTree/lxml

Mein aktueller Ansatz versucht, das "Eltern-Tag" der Zeichenfolge in der HTML zu finden, die mit Lxml geparst wurde. (Wenn Sie einen besseren Weg kennen, um dieses Problem anzugehen, bin ich ganz Ohr!)

Suchen Sie zum Beispiel in der Baumstruktur nach "TEXT STRING HERE" und geben Sie das "p" -Tag zurück. (beachten Sie, dass ich das genaue Layout des HTML nicht vorher kennen werde)

Danke für Ihre Hilfe!

Antwort

3

Dies ist eine einfache Methode mit ElementTree. Es erfordert jedoch, dass Ihre HTML-Eingabe gültige XML ist (also habe ich Ihrem HTML die entsprechenden End-Tags hinzugefügt):

Verwandte Themen