Ich habe ein Problem mit dem Codierungsproblem in Python (IPython Notebook). Da diese Art von Problemen sehr häufig und einfach ist, kann ich es immer noch nicht wirklich beheben.Python: Got xa0 statt Leerzeichen in CSV und kann nicht entfernen oder konvertieren
Ich habe eine CSV Datei hier, wie Sie sehen können, haben wir viele '\ xa0' und andere '\ n' Zeichen in dieser Datei.
I
verwendetwith io.open(train_fname) as f:
for line in f:
line = line.encode("ascii", "replace")
Aber es funktioniert nicht, ich die folgende Ausgabe immer erhalten.
Stellen Sie sich vor, Sie könnten sagen, Sie wissen was, keine Sanktionen, keine ewigen Anhörungen über die Vorschriften der IEAA, keine Verheimlichung der freundlichen Atomenergie mehr. \ xa0Du hast 2 Tage bis; \ xa0i.e. \ xa0let in den Inspektoren, beenden Sie die Zivilisten zu töten.
Ich habe versucht, andere Methoden wie
line.replace(u"\xa0", " ")
Es ist auch nicht funktioniert, habe ich versucht, auch alle Arten von Codierung diese CSV-Datei in meinem Text bearbeiten zu öffnen, erhabener Text. Ich habe versucht Windows-1252, UTF-8 und alle anderen Kodierungen, aber ich bekomme immer \ Xa0 ist mein Text bearbeiten, wenn Sie diese CSV-Datei anzeigen.
Bedeutet dies das
\ xa0
bereits in dieser CSV-Datei als Eingabetext geschrieben? Es ist kein Problem der Python-Kodierung? Wenn es in diesem Fall ist, warum kann ich die Methode replace nicht verwenden, um diese Zeichenfolge einfach zu ersetzen? Das \ xa0 zeigt an, dass die Datei codiert ist, in welcher codieren? Dies bedeutet, dass diese Datei in utf-8 geschrieben ist, aber ich habe versucht, sie in ascii oder anderen Fällen zu öffnen?
Ich suchte viele Fragen, aber sie scheinen nicht viel Hilfe zu bieten. Bitte frag mich, ob meine Frage nicht klar ist. Vielen Dank!
`
Die 'replace()' Methode funktioniert nicht direkt. –
Welche Codierung ist Ihre Eingabedatei? –