Ich brauche etwas HTML-Parsing mit Python. Nach ein paar Recherchen scheint Lxml meine beste Wahl zu sein, aber es fällt mir schwer, Beispiele zu finden, die mir dabei helfen, was ich versuche zu tun. Deshalb höre ich. Ich muss eine Seite für alle seine sichtbaren Text schaben .. strip alle Tags und Javascript .. Ich brauche es, um mich mit dem Text sichtbar zu lassen. genug klingt einfach .. ich habe es mit dem HTMLParser aber es ist nicht javascript gut HandhabungPython Lxml Screen Scraping?
class HTML2Text(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.output = cStringIO.StringIO()
def get_text(self):
return self.output.getvalue()
def handle_data(self, data):
self.output.write(data)
def ParseHTML(source):
p = HTML2Text()
p.feed(source)
text = p.get_text()
return text
Irgendwelche Ideen für eine Art und Weise, dies zu tun mit lxml oder einen besseren Weg, es zu tun HTMLParser .. HTMLParser am besten sein würde, weil keine zusätzliche Bibliotheken benötigt wird .. dankt alle
Scott F.