Wie fehlerhafte HTML in Python zu analysieren

Ich muss den DOM-Baum eines geparsten HTML-Dokuments durchsuchen.Wie fehlerhafte HTML in Python zu analysieren

ich utidylib bin mit, bevor die Zeichenfolge mit lxml Parsen

a = tidy.parseString (html_code, Optionen) dom = etree.fromstring (str (a))

manchmal bekomme ich einen Fehler Es scheint, dass Tidylib nicht in der Lage ist, fehlerhafte HTML zu reparieren.

Wie kann ich jede HTML-Datei analysieren, ohne einen Fehler zu bekommen (nur Teile von Dateien analysieren, die nicht repariert werden können)?

Quelle

2009-05-24 lorenzov

Beautiful Soup macht einen guten Job mit ungültigen/gebrochen HTML

>>> from BeautifulSoup import BeautifulSoup 
>>> soup = BeautifulSoup("<[email protected])($*><body><table <tr><td>hi</tr></td></body><html") 
>>> print soup.prettify() 
<htm> 
<body> 
    <table> 
    <tr> 
    <td> 
    hi 
    </td> 
    </tr> 
    </table> 
</body> 
</htm>

Quelle

2009-05-24 21:06:13 dbr

Da Sie bereits lxml verwenden, haben Sie lxml's ElementSoup Modul versucht?

Wenn ElementSoup den HTML-Code nicht reparieren kann, müssen Sie wahrscheinlich zuerst eigene Filter anwenden, die auf Ihren eigenen Beobachtungen basieren, wie die Daten fehlerhaft sind.

Quelle

2009-05-24 22:52:08

+1, ElementSoup ist hier eine ausgezeichnete Alternative. –

Links waren kaputt; bearbeitet sie. Hoffentlich enthalten die neuen Standorte den gleichen Inhalt, auf den Sie ursprünglich hinwiesen. – tripleee

Wenn du keine schöne Suppe installiert hast, brauchst du sie vielleicht für Element Soup. Einfach 'pip installieren beautifulsoup' – BobTuckerman

Wie fehlerhafte HTML in Python zu analysieren

Antwort

Verwandte Themen