Ich habe Speicherprobleme bei der Verwendung von Pandas auf einige große CSV-Dateien (mehr als 30 Millionen Zeilen). Also, ich frage mich, was ist die beste Lösung dafür? Ich muss paar große Tische zusammenführen. Danke vielmals!Python Pandas Speicherfehler beim Arbeiten mit großen CSV-Dateien
Antwort
Mögliches Duplikat von Fastest way to parse large CSV files in Pandas.
Die Folgerung ist, wenn man Laden die CSV-Datei Daten häufig ist, dann eine bessere Möglichkeit wäre es einmal zu analysieren (mit herkömmlichen read_csv
) und speichern sie in HDF5 Format. Pandas
(mit PyTables
Bibliothek), bietet eine effiziente Möglichkeit, dieses Problem zu behandeln [docs].
Auch die Antwort auf What is the fastest way to upload a big csv file in notebook to work with python pandas? zeigt die zeitliche Ausführung (timeit) von Beispieldatensatz mit csv
vscsv.gz
vsPickle
vsHDF5
Vergleich.
Das Problem besteht nicht beim Hochladen der Datei. Das Problem besteht darin, paar große Tische zu verschmelzen. –
Ihre Frage ist in diesem Fall leicht irreführend. Obwohl das HDF5-Format immer noch am besten für Ihre Anforderungen funktioniert. Ref [this] (http://stackoverflow.com/questions/14262433/large-data-works-flows-using-pandas) für mehr Klarheit. –
- 1. Python Pandas Speicherfehler beim Zusammenführen großer CSV-Dateien
- 2. Python psycopg2 - Arbeiten mit großen Daten
- 3. pandas read_hdf mit großen Bedingungen
- 4. Speicherfehler beim Plotten Datenrahmen (matplotlib)
- 5. Speicherfehler in Python beim Laden des Datensatzes
- 6. Pandas Speicherfehler nach einem bestimmten skiprows Parameter
- 7. Speicherfehler beim Zwischenspeichern schwerer Daten mit Django
- 8. Speicherproblem beim Arbeiten mit einem großen Array von UIImage
- 9. Pandas vektorisierte Operationen, die nicht an großen Datenmengen arbeiten
- 10. Speicherfehler beim Aufruf von
- 11. get_dummies Python Speicherfehler
- 12. beste Möglichkeit, mit großen Datenmengen in Python zu arbeiten
- 13. Bessel-Funktionen in Python, die mit großen Exponenten arbeiten
- 14. Wie arbeiten Sie mit großen Array in Python?
- 15. MemoryError bei großen Zusammenführungen mit Pandas in Python
- 16. sklearn kneighbours Speicherfehler python
- 17. Speicherfehler in Python
- 18. Speicherfehler beim Lesen einer Zip-Datei in Python
- 19. Speicherfehler in Python beim Parsen eine 300 MB-Datei
- 20. PDFBox: Arbeiten mit sehr großen PDFs.
- 21. Wie mit großen Zahlen in PHP arbeiten?
- 22. Mit großen Textschnipsel in Java arbeiten Quelle
- 23. Speicherfehler beim Öffnen von SQL-Skript in Python
- 24. verhindern Speicherfehler beim Vergleich zweier Dateien in Python
- 25. Wie Python-Speicherfehler zu debuggen?
- 26. Speicherfehler in Python numpy Array
- 27. Speicherfehler in Python Primtests Programm
- 28. Füllwert eines Pandas-Datenrahmens aus einer großen DB-Abfrage (Python)
- 29. Arbeiten an großen JavaScript-Anwendungen
- 30. RDotNet Speicherfehler
Wie groß ist die CSV-Datei und wie groß ist Ihr RAM ?. Haben Sie beim Lesen der Daten Eigenschaften wie 'low_memory = False' und' chunksize' versucht? –