doc = open("1.html").read().strip()
doc = doc.decode("utf-8","ignore")
Dieses Beispiel ist in Ordnung. Ich kann den richtigen Unicode-String doc bekommen.Kann die Python-Zeichenkette durch die Suche nach Zeichenketten geändert werden?
doc = open("1.html").read().strip()
if u"charset=utf" in doc or u"charset=\"utf" in doc:
doc = doc.decode("utf-8","ignore")
gibt es Fehler "UnicodeDecodeError: 'ascii' Codec nicht Byte 0xe7 in Position 289 dekodieren kann: ordinal nicht in Reichweite (128)" Jeder kann dies erklären? Der String doc kann durch string find geändert werden. vergessen zu sagen, die 1.html enthalten das chinesische Wort.