Ich lerne, wie html
zu analysieren und zu manipulieren beautiful soup
mit etwa so:BeautifulSoup nicht ich Element entfernen
from lxml.html import parse
import urllib2
from urllib2 import urlopen
from BeautifulSoup import BeautifulSoup
url = 'some-url-here'
req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"})
parsed = urllib2.urlopen(req)
soup = BeautifulSoup(parsed)
for elem in soup.findAll(['script', 'style', 'i']):
elem.extract()
for main_body in soup.findAll("div", {"role" : "main"}):
print main_body.getText(separator=u' ')
Das Ergebnis enthält <i>
Tags und ich kann nicht herausfinden, wie sie zu entfernen. Wie kann dies erreicht werden und warum wird das einzige Tag nicht durch den obigen Code entfernt?
können Sie die HTML teilen? Der Code sollte gut funktionieren, wie –