2016-05-12 11 views
-1

Ich habe Speicherprobleme bei der Verwendung von Pandas auf einige große CSV-Dateien (mehr als 30 Millionen Zeilen). Also, ich frage mich, was ist die beste Lösung dafür? Ich muss paar große Tische zusammenführen. Danke vielmals!Python Pandas Speicherfehler beim Arbeiten mit großen CSV-Dateien

+0

Wie groß ist die CSV-Datei und wie groß ist Ihr RAM ?. Haben Sie beim Lesen der Daten Eigenschaften wie 'low_memory = False' und' chunksize' versucht? –

Antwort

0

Mögliches Duplikat von Fastest way to parse large CSV files in Pandas.

Die Folgerung ist, wenn man Laden die CSV-Datei Daten häufig ist, dann eine bessere Möglichkeit wäre es einmal zu analysieren (mit herkömmlichen read_csv) und speichern sie in HDF5 Format. Pandas (mit PyTables Bibliothek), bietet eine effiziente Möglichkeit, dieses Problem zu behandeln [docs].

Auch die Antwort auf What is the fastest way to upload a big csv file in notebook to work with python pandas? zeigt die zeitliche Ausführung (timeit) von Beispieldatensatz mit csvvscsv.gzvsPicklevsHDF5 Vergleich.

+0

Das Problem besteht nicht beim Hochladen der Datei. Das Problem besteht darin, paar große Tische zu verschmelzen. –

+0

Ihre Frage ist in diesem Fall leicht irreführend. Obwohl das HDF5-Format immer noch am besten für Ihre Anforderungen funktioniert. Ref [this] (http://stackoverflow.com/questions/14262433/large-data-works-flows-using-pandas) für mehr Klarheit. –

Verwandte Themen