pandas MemoryError beim Lesen eines großen Dataframes

Ich benutze Pandas, um eine große CSV-Datei zu lesen. Die Datei ist 14G, und meine Maschine haben 60G freien Speicher auf Linux.Die Datei über 45.000.000 Zeilen und 55 Spalten.Es scheint kann ' t treten dieses Problem auf. So ist irgendeine Idee, es zu lösen? Der Fehler istpandas MemoryError beim Lesen eines großen Dataframes

packages/pandas/core/internals.py", line 4188, in _stack_arrays 
stacked = np.empty(shape, dtype=dtype) 
MemoryError

Quelle

2016-12-11 Peng He

Eine Option ist die chunksize Parameter auf pandas.read_csv setzen und in Batches verarbeiten – datawrestler

Ich möchte einige Zeilen in dieser Datei zufällig auswählen.Wenn ich Chunksize verwenden, mache ich mir sorgen, ob Zufälligkeit genug ist. –

Sie Argument

low_memory=False

passieren kann, während eine CSV-Datei zu lesen. Oder versuchen Sie, in Stücke aufzuteilen und dann diese Stücke anzuhängen.

Quelle

2016-12-11 09:42:05

pandas MemoryError beim Lesen eines großen Dataframes

Antwort

Verwandte Themen