Ich mache einige HTML-Reinigung mit BeautifulSoup. Noob zu beiden Python & BeautifulSoup. Ich habe Tags werde ich an anderer Stelle gefunden auf Stackoverflow korrekt wie folgt auf der Grundlage eine Antwort entfernt:Entfernen Sie alle Inline-Stile mit BeautifulSoup
[s.extract() for s in soup('script')]
Aber wie Inline-Stile entfernen? Zum Beispiel die folgende:
<p class="author" id="author_id" name="author_name" style="color:red;">Text</p>
<img class="some_image" href="somewhere.com">
werden sollte:
<p>Text</p>
<img href="somewhere.com">
Wie die Inline-Klasse, ID, Name & Stil Attribute aller Elemente löschen?
Antworten auf andere ähnliche Fragen Ich könnte alle erwähnt mit einem CSS-Parser, um dies statt BeautifulSoup, sondern als die Aufgabe zu finden ist einfach zu entfernen, anstatt die Attribute zu manipulieren, und ist eine allgemeine Regel für alle Tags, ich hoffte, einen Weg zu finden, alles innerhalb von BeautifulSoup zu tun.
Ich benutzte extract() für den Fall, dass ich entschied, eine Liste von entferntem Code zu einem beliebigen Zeitpunkt zu erstellen, aber decompose() funktioniert genauso gut für die vollständige Entfernung und Zerstörung von Tags und Inhalten. Danke für das Attribut-Löschen-Snippet, funktioniert wie ein Zauber! – Ila
Sinn macht. Ich werde die Notiz über 'decompose()' für jeden anderen hinterlassen, der darüber stolpern könnte. – jmk