Ich habe eine Eingabedatei, in der jeder Wert als Zeichenfolge gespeichert ist. Es befindet sich in einer CSV-Datei mit jedem Eintrag in Anführungszeichen.doppelt zitierte Elemente in CSV kann nicht mit Pandas lesen
Beispieldatei:
"column1","column2", "column3", "column4", "column5", "column6"
"AM", "07", "1", "SD", "SD", "CR"
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD"
"AM", "01", "2", "SD", "SD", "SD"
Es gibt nur sechs Spalten. Welche Optionen muss ich in pandas read_csv eingeben, um das richtig zu lesen?
Ich bin derzeit versucht:
import pandas as pd
df = pd.read_csv(file, quotechar='"')
aber das gibt mir die Fehlermeldung:. CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 14
was offensichtlich bedeutet, dass es die ‚"‘ignoriert und jedes Komma als Feld Parsen Für Zeile 3 sollten die Spalten 3 bis 6 jedoch Strings mit Kommas sein ("1,2,3", "PR, SD, SD", "PR, SD, SD", "PR, SD, SD").)
Wie bekomme ich pandas.read_csv, um dies richtig zu analysieren ?
Danke.
Wenn Sie mit regex gut sind, können Sie es im September arguement verwenden, um read_csv ... http://stackoverflow.com/questions/24091356/pandas-read-csv-with-final-column-containing -Kommas – rhaskett