Normalerweise kann ich ein Skript schreiben, das für Scraping funktioniert, aber ich habe einige Schwierigkeiten haben, diese Website für die Tabelle angeworben für dieses Forschungsprojekt, an dem ich arbeite, zu kratzen. Ich plane, das Skript, das an einem Status arbeitet, zu verifizieren, bevor ich die URL meiner Zielzustände eingib.Problem Scraping-Site mit BS4
import requests
import bs4 as bs
url = ("http://programs.dsireusa.org/system/program/detail/284")
dsire_get = requests.get(url)
soup = bs.BeautifulSoup(dsire_get.text,'lxml')
table = soup.findAll('div', {'data-ng-controller': 'DetailsPageCtrl'})
print(table)
#I'm printing "Table" just to ensure that the table information I'm looking for is within this sections
Ich bin nicht sicher, ob die Website die Menschen daran zu hindern, Schaben versucht, aber alle Informationen, die ich greifen bin auf der Suche nach ist innerhalb „& quot“, wenn Sie schauen, was Tabelle Ausgänge.
Haben Sie "html.parser" anstelle von "lxml" probiert? – martinB0103
Welchen Teil der Seite möchten Sie? Der Teil mit der Überschrift "Programmübersicht"? Oder der eine Leiter "Behörden"? Oder etwas anderes? –
@BillBell Ich bin auf der Suche nach der "Programmübersicht" – vlepore