Ich versuche, das br
-Tag aus einem HTML-Code zu entfernen, indem Sie beautifulsoup verwenden.Python beautifulsoup entfernen selbst schließendes Tag
html zB:
<span class="qualification" style="font-size:14px; font-family: Helvetica, sans-serif;">
Doctor of Philosophy (Software Engineering), Universiti Teknologi Petronas
<br>
Master of Science (Computer Science), Government College University Lahore
<br>
Master of Science (Computer Science), University of Agriculture Faisalabad
<br>
Bachelor of Science (Hons) (Agriculture),University of Agriculture Faisalabad
<br></span>
Mein Python-Code:
for link2 in soup.find_all('br'):
link2.extract()
for link2 in soup.findAll('span',{'class':'qualification'}):
print(link2.string)
Das Problem ist, dass der vorherige Code nur die erste Qualifikation bekommt.
Also, wenn beautifulsoup automatisch die schließenden Tags für ''
hinzufügen, kann dieses Problem durch Verwendung des XHTML-konform ''
vermieden werden? – HolyDanna
@HolyDanna: ja. Das OP müsste trotzdem "Tag.text" oder "Tag.stripped_strings" verwenden, um den Inhalt von "span" zu erhalten. – vaultah