Ich muss den DOM-Baum eines geparsten HTML-Dokuments durchsuchen.Wie fehlerhafte HTML in Python zu analysieren
ich utidylib bin mit, bevor die Zeichenfolge mit lxml Parsen
a = tidy.parseString (html_code, Optionen) dom = etree.fromstring (str (a))
manchmal bekomme ich einen Fehler Es scheint, dass Tidylib nicht in der Lage ist, fehlerhafte HTML zu reparieren.
Wie kann ich jede HTML-Datei analysieren, ohne einen Fehler zu bekommen (nur Teile von Dateien analysieren, die nicht repariert werden können)?
+1, ElementSoup ist hier eine ausgezeichnete Alternative. –
Links waren kaputt; bearbeitet sie. Hoffentlich enthalten die neuen Standorte den gleichen Inhalt, auf den Sie ursprünglich hinwiesen. – tripleee
Wenn du keine schöne Suppe installiert hast, brauchst du sie vielleicht für Element Soup. Einfach 'pip installieren beautifulsoup' – BobTuckerman