Ich versuche, den Inhalt des Artikels von einer Website zugreifen, mit dem folgenden Code beautifulsoup:Python, entfernen Sie alle HTML-Tags aus string
site= 'www.example.com'
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)
content = soup.find_all('p')
content=str(content)
das Inhaltsobjekt alle Haupttext der Seite enthält, ist innerhalb des "p" -Tags, jedoch sind noch andere Tags innerhalb der Ausgabe vorhanden, wie in dem Bild unten zu sehen ist. Ich möchte alle Zeichen entfernen, die in übereinstimmenden Paaren von <> -Tags und den Tags selbst enthalten sind. so dass nur der Text übrig bleibt.
Ich habe die folgende Methode versucht, aber es scheint nicht zu funktionieren.
' '.join(item for item in content.split() if not (item.startswith('<') and item.endswith('>')))
Was ist der beste Weg, um Teilstrings in einem Stachel zu entfernen? dass beginnen und mit einem bestimmten Muster enden wie <>