ich nach einem Udacity Kurs einen Crawler in Python zu machen versuchen. Ich habe diese Methode get_page()
, die den Inhalt der Seite zurückgibt.UnicodeDecodeError: 'utf-8' Codec kann nicht Byte 0x8B in Position dekodieren 1: ungültiger Start-Byte
def get_page(url):
'''
Open the given url and return the content of the page.
'''
data = urlopen(url)
html = data.read()
return html.decode('utf8')
die ursprüngliche Methode nur zurückkehrt data.read()
, aber auf diese Weise kann ich nicht Operationen wie str.find()
tun. Nach einer kurzen Suche habe ich herausgefunden, dass ich die Daten entschlüsseln muss. Aber jetzt bekomme ich diesen Fehler
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
Ich habe ähnliche Fragen in SO gefunden, aber keiner von ihnen war speziell dafür. Bitte helfen Sie.
Können Sie mich wissen lassen, was der 'url' Wert ist? – falsetru
könnte es eine beliebige URL sein. In diesem Fall war es google.co.in –
Entsprechend der Überschrift wird die Seite mit 'ISO-8859-1', nicht' utf-8' kodiert. – falsetru