Ich benutze BeautifulSoup, um einige Inhalte von einer HTML-Seite zu analysieren.Vorschläge auf get_text() in BeautifulSoup
Ich kann aus dem HTML den Inhalt extrahieren, den ich möchte (d. H. Der Text, der in einer span
definiert durch die class
Myclasse enthalten ist).
result = mycontent.find(attrs={'class':'myclass'})
I erhalten dieses Ergebnis:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>
Wenn ich versuche, den Text zu extrahieren, mit:
result.get_text()
I erhalten:
Lorem ipsumdolor sit amet,consectetur...
Wie Sie sehen können, wenn Das Tag <br>
wird dort entfernt ist kein Abstand mehr zwischen den Inhalten und zwei Wörter sind concated.
Wie kann ich dieses Problem lösen?
Use 'Inhalt', dann
ersetzen? – Floris
können Sie dies in ein Beispiel einfügen, so dass ich die Antwort akzeptieren kann? danke – user601836
Auf iPhone jetzt. Sie müssen sich in die Nähe eines Computers begeben, um getesteten Code zu erstellen. Ich hoffe, dass jemand anderes in der Zwischenzeit ein Beispiel für Sie erstellen wird. – Floris