Web-Crawler kann keine Links aus https://steemit.com/trending

wenn ich die Hauptdatei von meinem Crawler ausführen Ich bekomme diese 'UTF-8' Codec kann Byte 0x8b in Position 1 nicht dekodieren: ungültiges Start-Byte . Ich würde Code schreiben, aber es ist ein großes Programm und ich bin unsicher, wo oder was das Problem ist. Die Seite ist hardcore verschlüsselt, könnte dies das Problem sein?Web-Crawler kann keine Links aus https://steemit.com/trending

Quelle

2017-05-17 Anonymous

Vielleicht möchten Sie [ask] und [mcve] lesen. – boardrider

Warum ist das sehr klar und ich habe das gelesen? –

Wenn ich wüsste, wo der Fehler war, würde ich es einfach nur sehen wollen, was ein anderer denkt. –

Wie andere bereits erwähnt haben, wäre ein Beispiel von immenser Hilfe.

Aber wenn ich einen gebildeten Stab im Dunkeln nehmen musste ... ist das spezifische Problem, das Sie haben, dass die Seite, die Sie scrapen, wahrscheinlich einige Unicode-Zeichen hat, die nicht gespeichert werden können, ohne verschlüsselt zu werden. Also ... versuchen Sie, die Daten wie folgt zu kodieren:

item['title'] = however_you_got_title.encode('utf-8')

Quelle

2017-05-17 02:33:19 Tomatohater

krank geben es einen Schuss –

Web-Crawler kann keine Links aus https://steemit.com/trending

Antwort

Verwandte Themen