2016-12-11 4 views
0

Ich benutze Pandas, um eine große CSV-Datei zu lesen. Die Datei ist 14G, und meine Maschine haben 60G freien Speicher auf Linux.Die Datei über 45.000.000 Zeilen und 55 Spalten.Es scheint kann ' t treten dieses Problem auf. So ist irgendeine Idee, es zu lösen? Der Fehler istpandas MemoryError beim Lesen eines großen Dataframes

packages/pandas/core/internals.py", line 4188, in _stack_arrays 
stacked = np.empty(shape, dtype=dtype) 
MemoryError 
+0

Eine Option ist die chunksize Parameter auf pandas.read_csv setzen und in Batches verarbeiten – datawrestler

+0

Ich möchte einige Zeilen in dieser Datei zufällig auswählen.Wenn ich Chunksize verwenden, mache ich mir sorgen, ob Zufälligkeit genug ist. –

Antwort

0

Sie Argument

low_memory=False 

passieren kann, während eine CSV-Datei zu lesen. Oder versuchen Sie, in Stücke aufzuteilen und dann diese Stücke anzuhängen.

Verwandte Themen