Wie liest man den ersten Chunk in einem großen Datenrahmen?

Ich habe eine 3 GB-Datei und pd.read_csv(...) stürzt mein ipython Notebook so stattdessen habe ich geschrieben (stillos)Wie liest man den ersten Chunk in einem großen Datenrahmen?

df = pd.read_csv("train.csv", chunksize=10**6) 

for chunk in df: 
    print chunk 
    break

Was ist richtig? Ich möchte nur die ersten Millionen Zeilen sehen.

Quelle

2016-08-10 john mangual

Was meinst du? Sie benötigen alle 3 Zeilen, um die ersten Millionen Zeilen zu sehen. In der Tat würde ich Ihnen raten, kleinere Stücke zu lesen, weil Disk IO im Allgemeinen langsamer ist als CPU. – Kartik

Sie können versuchen, iterator Parameter read_csv:

reader = pd.read_csv("train.csv", iterator=True) 
df = reader.get_chunk(10**6)

Wenn es immer noch zu groß, können Sie lesen (und möglicherweise verwandeln oder in eine neue Datei schreiben zurück) kleinere Stücke in einer Schleife, bis Sie, was Sie bekommen brauchen.

Quelle

2016-08-10 03:33:33 ptrj

Wie liest man den ersten Chunk in einem großen Datenrahmen?

Antwort

Verwandte Themen