Ich bin neu bei Python und habe noch keine Optimierung vorgenommen. Ich versuche, eine Reihe von Dateien zu nehmen, die selbst schon ziemlich groß sind und sie zu einer großen Datei zusammenfassen, die wahrscheinlich nahe bei 50-100 GB liegen wird, wäre meine Vermutung. Mehr Speicher als ich auf jeden Fall habe. Ich habe den Code unten erhalten und es funktioniert gut für kleine Dateien. Wenn ich versuche, die tatsächlichen Dateien für meinen Anwendungsfall zu verwenden, wird mein Computer vollständig gesperrt.Was würde diesen Code, der einige flache Dateien kombiniert, schneller ausführen?
Ich verstehe, dass Pandas ist schnell. Ich vermute, dass Datenrahmen im Speicher gespeichert werden. Wenn das der Fall ist, dann ist das wahrscheinlich, was hier alles kaputt macht. Gibt es eine Art oder einen Mechanismus, der auf die Festplatte ausgelaufen ist oder möglicherweise in eine vorhandene Datei geschrieben wurde, anstatt zu versuchen, die ganze Sache in einem Datenrahmen zu halten, bevor sie auf die Festplatte geschrieben wird? Oder vielleicht eine andere Option, an die ich nicht gedacht habe?
Dispense mit Pandas zusammen, wenn alles, was Sie es verwenden, ist zu csv des zu analysieren. Sie müssen sie wahrscheinlich überhaupt nicht analysieren, vielleicht überspringen Sie eine Überschrift ... –