2016-09-30 3 views
0

Also arbeite ich mit parametrischen Energie-Simulationen und endete mit 500GB + Daten in .CSV Dateien gespeichert. Ich muss in der Lage sein, all diese Daten zu verarbeiten, um die Ergebnisse zu vergleichen und Erkenntnisse über den Einfluss verschiedener Parameter zu gewinnen.Eine Menge von Daten verarbeiten

Jeder CSV-Dateiname enthält Informationen zu den für die Simulation verwendeten Parametern, sodass ich die Dateien nicht zusammenführen kann.

Normalerweise geladen ich die CSV-Dateien in Python mit Pandas und definieren eine Klasse. aber jetzt (mit all diesen Daten) gibt es nicht genug Speicher, um dies zu tun.

Können Sie mir einen Weg zeigen, diese Daten zu verarbeiten? Ich muss in der Lage sein, Plots zu machen und die CSV-Dateien zu vergleichen.

Vielen Dank für Ihre Zeit.

+0

Kurz gesagt, Sie brauchen eine faule Auswertung der Daten. Vielleicht möchten Sie herausfinden, wie Sie Ihre Datenpunkte einzeln (oder nach Chargen) abrufen können, aber natürlich hängt das von Ihrem speziellen Problem ab (das Sie uns nicht erklärt haben). –

+0

Vielleicht hilfreich: ["Große Daten" Arbeitsabläufe mit Pandas] (https://stackoverflow.com/questions/14262433/large-data-works-flows-using-pandas/14268804#14268804) –

Antwort

0

Convert die CSV-Dateien zu hdf5, die erstellt wurde, um mit massiven und komplexen Datensätzen umzugehen. Es funktioniert mit pandas sowie otherlibraries.

+0

Ich habe die Dateien konvertiert und haben 120 GB hdf5 Dateien getrennt. aber es dauert ewig zu fragen. Beispiel: store.keys() [0] dauert ungefähr 3 Minuten. Irgendeine Idee warum? –

Verwandte Themen