Ich habe Websites vor der Verwendung dieser gleichen Technik Scraping. Aber mit dieser Website scheint es nicht zu funktionieren.Problem Scraping mit schönen Suppe
import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.weatheronline.co.uk/weather/maps/current?LANG=en&DATE=1354104000&CONT=euro&LAND=UK&KEY=UK&SORT=1&INT=06&TYP=sonne&ART=tabelle&RUBRIK=akt&R=310&CEL=C"
page=urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
print soup
In der Ausgabe sollte der Inhalt der Webseite, aber stattdessen bin ich nur immer diese:
GIF89a (es folgt auch einige Symbole ich hier nicht kopieren)
Irgendwelche Ideen von Was ist das Problem und wie soll ich vorgehen?
@Abhijit Beachten Sie, dass sobald sie herausfinden, dass Sie die Seite scrapen, sie nur eine Änderung an ihrem HTML vornehmen werden, die Ihr Scraping unterbricht. Oder blockieren Sie Ihre IP-Adresse. Oder irgendeine andere Veränderung. Sie wollen nicht, dass Sie ihre Website scrappen. Vielleicht solltest du das respektieren. –
@Abhijit: response = opener.open (url) gibt Fehler: – John
Traceback (jüngste Aufforderung zuletzt): File "" Linie 1 in Datei "C: \ Python27 \ lib \ urllib2.py", Linie 406 in offenem response = meth (REQ, response) Datei "C: \ Python27 \ lib \ urllib2.py", Linie 519, in http_response 'http', Anfrage, Antwort, Code, msg, hdrs) Die Datei "C: \ Python27 \ lib \ urllib2.py", Linie 444, in Fehler return self._call_chain (* args) Datei "C: \ Python27 \ lib \ urllib2.py", Linie 527, in http_error_default Raise HTTPError (req.get_full_url(), code, msg, hdrs, fp) HTTPError: HTTP Fehler 4 03: Verboten –
John