2016-08-10 8 views
0

Ich habe eine 3 GB-Datei und pd.read_csv(...) stürzt mein ipython Notebook so stattdessen habe ich geschrieben (stillos)Wie liest man den ersten Chunk in einem großen Datenrahmen?

df = pd.read_csv("train.csv", chunksize=10**6) 

for chunk in df: 
    print chunk 
    break 

Was ist richtig? Ich möchte nur die ersten Millionen Zeilen sehen.

+0

Was meinst du? Sie benötigen alle 3 Zeilen, um die ersten Millionen Zeilen zu sehen. In der Tat würde ich Ihnen raten, kleinere Stücke zu lesen, weil Disk IO im Allgemeinen langsamer ist als CPU. – Kartik

Antwort

1

Sie können versuchen, iterator Parameter read_csv:

reader = pd.read_csv("train.csv", iterator=True) 
df = reader.get_chunk(10**6) 

Wenn es immer noch zu groß, können Sie lesen (und möglicherweise verwandeln oder in eine neue Datei schreiben zurück) kleinere Stücke in einer Schleife, bis Sie, was Sie bekommen brauchen.

Verwandte Themen