2017-02-11 4 views
0

Ich habe begonnen, Python für Data Science zu lernen. Ich benutze R schon fast täglich. Ich staple auf den ersten Schritt. Ich versuche, CSV-Datei mit Pandas read_csv-Datei-Methode zu importieren. Ich habe ein Problem mit der Codierung der Datei beim Importieren.Fehler beim Importieren von CSV in Python mit Pandas

Wenn ich read.csv von R alles verwenden ist ok:

df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8') 

aber wenn ich ein ähnlichen Code in Python verwenden:

import pandas as pd 
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8') 

es gibt einen Fehler zurück:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte 

Wie ist es möglich, dass ich eine Datei mit "UTF-8" Codierung in R importieren kann, aber nicht in Python?

Wenn ich eine andere Codierung (latin1 oder iso-8859-1) verwende, importiert es die Datei erfolgreich, aber die Zeichen sind nicht richtig codiert.

+0

Ok, ich denke, 'cp1250'-Codierung funktioniert gut. – Mislav

+0

Bitte zeigen Sie uns ein Beispiel Ihrer 'myfile.txt', um das Problem besser zu verstehen. –

Antwort

0

Auch wenn ich nicht verstehe, warum UTF-8 in R funktioniert, aber nicht in Python, fand ich heraus, dass die cp1250-Codierung gut funktioniert.

-1

Codierung "UTF-16" verwenden. Ich habe das verwendet, um mein Problem mit demselben Fehler zu beheben.

+0

Meinst du, dass die Verwendung von 'utf-16' dein Problem gelöst hat oder meinst du es gibt dir immer noch das gleiche Problem? – Simon

Verwandte Themen