0
Ich benutze Pandas, um eine große CSV-Datei zu lesen. Die Datei ist 14G, und meine Maschine haben 60G freien Speicher auf Linux.Die Datei über 45.000.000 Zeilen und 55 Spalten.Es scheint kann ' t treten dieses Problem auf. So ist irgendeine Idee, es zu lösen? Der Fehler istpandas MemoryError beim Lesen eines großen Dataframes
packages/pandas/core/internals.py", line 4188, in _stack_arrays
stacked = np.empty(shape, dtype=dtype)
MemoryError
Eine Option ist die chunksize Parameter auf pandas.read_csv setzen und in Batches verarbeiten – datawrestler
Ich möchte einige Zeilen in dieser Datei zufällig auswählen.Wenn ich Chunksize verwenden, mache ich mir sorgen, ob Zufälligkeit genug ist. –