abrufen Ich verwende LXML und Python, um über eine Seite zu verschrotten. Der Link zur Seite ist HERE. Der Schluckauf, dem ich gerade gegenüberstehe, ist, wie man das Attribut im Tag holt. Zum Beispiel können die drei Goldsterne am oberen Rand der Seite, haben sie eine htmlVerschrotten: Wie Sie ein Attribut in einem <abbr> Tag
<abbr title="3" class="average rating large star3">★★★☆☆</abbr>
Hier möchte ich den Titel holen, damit ich weiß, wie viele Sterne dieser Lage hat zu bekommen.
Ich habe versucht, ein paar Dinge, einschließlich dies zu tun:
response = urllib.urlopen('http://www.insiderpages.com/b/3721895833/central-kia-of-irving-irving').read()
mo = re.search(r'<div class="rating_box">.*?</div>', response)
div = html.fromstring(mo.group(0))
title = div.find("abbr").attrib["title"]
print title
Aber ist für mich nicht. Hilfe wäre willkommen.
Ihnen ist besser. Ich wusste nicht, dass Lxml die Seiten selbst abrufen kann. – WooParadog
Danke !!! sehr elegante Lösung –