Ich habe diese XPath-Abfrage bekommt:Wie extrahiere ich Links von einer Webseite mit lxml, XPath und Python?
/html/body//tbody/tr[*]/td[*]/a[@title]/@href
Es extrahiert alle Links mit dem Titel Attribut - und gibt die href
in FireFox's Xpath checker add-on.
Allerdings kann ich nicht scheinen, es mit lxml
zu verwenden.
from lxml import etree
parsedPage = etree.HTML(page) # Create parse tree from valid page.
# Xpath query
hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href")
for x in hyperlinks:
print x # Print links in <a> tags, containing the title attribute
Dies führt zu keinem Ergebnis von lxml
(leere Liste).
Wie würde man den href
Text (Link) eines Hyperlinks mit dem Attribut Titel mit lxml
unter Python greifen?
Hat das zu analysierende Dokument einen Namespace (xmlns)? –