Ich möchte verschiedene Elemente aus Tabellen und Absatztexten von dieser Website extrahieren.Web-Elemente Extraktion von Websites mit Python
https://www.instituteforsupplymanagement.org/about/MediaRoom/newsreleasedetail.cfm?ItemNumber=30655
Dies ist der Code ich verwende:
import lxml
from lxml import html
from lxml import etree
import urllib2
source = urllib2.urlopen('https://www.instituteforsupplymanagement.org/about/MediaRoom/newsreleasedetail.cfm?ItemNumber=30656&SSO=1').read()
x = etree.HTML(source)
growth = x.xpath("//*[@id="home_feature_container"]/div/div[2]/div/table[2]/tbody/tr[3]/td[2]/p)")
growth
Was ist der beste Weg, um die Elemente, die ich von einer Website extrahieren möchten, ohne jedes Mal die XPath im Code ändern zu müssen? Sie veröffentlichen jeden Monat neue Daten auf derselben Website, aber der XPath scheint sich manchmal ein wenig zu ändern.
Was sind die Elemente, die Sie wollen? Ihr XPath ist ungültig und kann auf dieser Seite nicht getestet werden. –
Ich habe den XPath geändert. Ich brauche Elemente aus der Tabelle "Manufacturing auf einen Blick". Und auch der Absatztext. –