Hier ist mein Code:‚charmap‘ Codec kann nicht Zeichenfehler in Python kodieren, während HTML Parsing
dataFile = open('dataFile.html', 'w')
res = requests.get('site/pm=' + str(i))
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, 'html.parser')
linkElems = soup.select('#content')
dataFile.write(str(linkElems[0]))
ich einen anderen Code haben, aber dies ist der Code, den ich denke, problematisch ist. Ich habe auch versucht mit:
dataFile.write(str(linkElems[0].decode('utf-8')))
aber das funktioniert nicht und gibt Fehler.
Mit dataFile = open('dataFile.html', 'wb')
gibt mir den Fehler:
a bytes-like object is required, not 'str'
Es ist nach wie vor ein Problem. Ich bekomme seltsame Zeichen wie '' '' anstelle von einem regulären '' '. –
Können diese Daten im Binärformat gespeichert werden? –
@SanJeetSingh: Sie verwenden 'response.text'. Verwenden Sie nicht den Standard-Latin-1 für HTTP-Textantworten ohne Codetyp "Content-type", und das ist immer falsch. Verwenden Sie 'response.content' und überlassen Sie es BeautifulSoup, die zu verwendende Codierung herauszufinden. –