Ich habe ein HTML-Dokument, das eine Reihe von <div>
's enthält, mit Kind <p>
' s und innerhalb <href>
's. Das Ziel ist, das,Schöne Suppe - Äußere Tags entfernen
- die
<div>
und<p>
Tags - am Ende jedes
<div>
eineDamit diese
</br>
Beispiel hinzufügen entfernt entfernen:
<div>
<p>
<a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools.">ref="https://example.com">https://https://example.com"</a></span><span>. Accessed 15 Nov. 2017.
</p>
</div>
Wird dies:
<a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools.">ref="https://example.com">https://https://example.com"</a></span><span>. Accessed 15 Nov. 2017.
</br>
Aktuelle
Bisher ist mein Code:
from bs4 import BeautifulSoup
for div in soup.find_all(name=re.compile(r'div')):
print div
jedoch alle Beispiele den inneren Text eher dann tatsächlich Tags darauf hinzuweisen scheinen zu ersetzen. Auch wenn es eine Möglichkeit gibt, dies in bs3 zu tun, wäre es ideal, da all mein anderer Code derzeit v3 verwendet.
Kann mir jemand in die richtige Richtung zeigen? Danke,
können Sie nicht direkt erhalten '' ? – furas