Also kurz gesagt meinem Fall ist dies:Python 2.7 Codierung und feedparser
- lesen Daten aus RSS-Feed
- drucken Inhalt an das Terminal
Und natürlich der Inhalt ist nicht in einfach ascii, es ist utf-8, also bekomme ich Zeichen wie "öäå". Aber wenn ich den Text drucke, ist alles mit Landschaften wie '\ xe4' zerfetzt. Etwas, das mit der Kodierung zu tun hat, aber ich kann es einfach nicht verstehen. Das sollte so trivial sein, aber Google Fu lässt mich im Stich.
Ein Beispiel ist, wenn ich durch den Inhalt Wort für Wort zu gehen und versuchen, den Charakter „ö“ zu finden: Ich tue:
if u"ö" in word:
die nur gibt: UnicodeDecodeError: ‚ascii‘ Codec‘ t dekodieren Byte 0xC3 in Position 6 ...
Edit:
Also ich denke, ich mein Problem gefunden. Ich bekam die Feed-Elemente dann nur str (entry.content) und passierte das weiter, aber dieser entry.content war eine Liste, die ein Wörterbuch mit Unicode-Strings als Werte enthielt. Also habe ich (glaube ich) nur einen ASCII-Wert bekommen Darstellung des Wörterbuchinhalts ...
http://nedbatchelder.com/text/unipain.html –