Ich hatte eine Frage in Bezug auf Speicherfehler beim Arbeiten mit großen CSV-Dateien mit Pandas Dataframe. Um es klarer zu sagen, ich stelle eine andere Frage: Ich habe Speicherfehler beim Zusammenführen großer CSV-Dateien (mehr als 30 Millionen Zeilen). Also, was ist die Lösung dafür? Vielen Dank!Python Pandas Speicherfehler beim Zusammenführen großer CSV-Dateien
Antwort
Die Verwendung von Python/Pandas zur Verarbeitung von Datensätzen mit mehreren zehn Millionen Zeilen ist nicht ideal. Anstatt eine massive CSV-Datei zu verarbeiten, sollten Sie Ihre Daten in eine Datenbank wie Redshift einlagern, wo Sie Ihre Daten tausende Male schneller abfragen und manipulieren können als mit Pandas. Sobald sich Ihre Daten in einer Datenbank befinden, können Sie SQL verwenden, um Ihre Daten zu "mundgroßen" Exporten und Extrakten für lokale Analysen mit Pandas zu aggregieren, zu filtern und umzuformulieren, wenn Sie möchten.
Verwenden Sie langfristig Spark, ein verteiltes Datenanalyse-Framework, das auf Scala basiert. Es hat definitiv eine steilere Lernkurve als Pandas, aber leiht viele der Kernkonzepte aus.
Rotverschiebung: https://aws.amazon.com/redshift/
Funke: http://spark.apache.org/
++ für die Verwendung von Spark! – MaxU
- 1. Python Pandas Speicherfehler beim Arbeiten mit großen CSV-Dateien
- 2. Nicht genügend Speicherfehler beim Veröffentlichen großer Ergebnisse von GetListItems
- 3. Speicherfehler beim Plotten Datenrahmen (matplotlib)
- 4. Pandas und Großer Datenrahmen
- 5. Speicherfehler in Python beim Laden des Datensatzes
- 6. Python Pandas nur bestimmte Spalten zusammenführen
- 7. Pandas Speicherfehler nach einem bestimmten skiprows Parameter
- 8. Scikit und Pandas: Anpassen großer Datenmengen
- 9. Speicherfehler beim Aufruf von
- 10. Pandas: Zusammenführen von Datenrahmen
- 11. Tipps zum Zusammenführen großer Änderungen zwischen Zweigen
- 12. Speicherfehler in Python
- 13. get_dummies Python Speicherfehler
- 14. sklearn kneighbours Speicherfehler python
- 15. Das Zusammenführen von data.frames führt zu einem nicht ausreichenden Speicherfehler
- 16. Speicherfehler in Python beim Parsen eine 300 MB-Datei
- 17. Speicherfehler beim Öffnen von SQL-Skript in Python
- 18. Speicherfehler beim Lesen einer Zip-Datei in Python
- 19. verhindern Speicherfehler beim Vergleich zweier Dateien in Python
- 20. Pandas: Mehrere (~ 30) Tabellen zusammenführen?
- 21. Erweitern und zusammenführen Pandas Datenrahmen
- 22. Wie Python-Speicherfehler zu debuggen?
- 23. Speicherfehler in Python numpy Array
- 24. Speicherfehler in Python Primtests Programm
- 25. Eine Liste von Pandas Datenrahmen zusammenführen
- 26. Python mit ZIP64-Erweiterungen beim Komprimieren großer Dateien
- 27. Leistungsabfall beim Schreiben großer Binärdateien
- 28. Speicherfehler beim Zwischenspeichern schwerer Daten mit Django
- 29. Out Speicherfehler beim Matrix in Matlab Erstellung
- 30. Speicherfehler beim Beizen eines Datenrahmens auf Platte
Sie können Ihre CSV-Datei per Streaming CSV-Datei, lesen Sie bitte diese [Beitrag] lesen (http://stackoverflow.com/questions/17444679/reading- a-riesen-csv-in-python). Oder Sie können mehr RAM in Ihrem PC kaufen und hinzufügen! Wenn Sie viel maschinelles Lernen/tiefe Lernarbeit machen müssen, dann ist das wahrscheinlich die beste Lösung. –
Holen Sie mehr Speicher ... – Alexander
Das Problem ist nicht die Dateien zu lesen. Nehmen wir an, ich habe die Dateien gelesen und möchte sie basierend auf einer der Variablen zusammenführen. Ich bekomme eine Fehlermeldung beim Zusammenführen der Tabellen. –