2016-11-29 3 views
2

ich habe eine zeit reihe welche werte in verschiedenen csv gespeichert sind. Jeder CSV ist sortiert und enthält eine variable Sekunden, die ein Zeitscan ist.dask csv lesen reihenfolge

df = dd.read_csv('/home/data/derived/ips_subnets.7days/*') 
df.head() 

      seconds    IP  subnet 
    0 1477252800 Private-10.0.0.0 10.101.15.6 
    1 1477252800 Private-10.0.0.0 10.102.223.2 
    2 1477252800 Private-10.0.0.0 10.104.15.43 
    3 1477252800 Private-10.0.0.0 10.104.5.241 
    4 1477252800 Private-10.0.0.0 10.106.15.26 

Nun, wie kann ich einstellen, dass die CSV-Dateien sollen nach den Variablen seconds, um gelesen werden?

Antwort

1

Standardmäßig dask.dataframe.read_csv liest Dateien in alphabetischer Reihenfolge, also wenn Ihre Dateinamen ein Standard-Benennungsschema folgen, wie 2016-05-06.csv dann sollten Sie in Ordnung sein.

Wenn Sie möchten, können Sie dies mit dask.delayed anpassen. Hier ist eine ähnliche example notebook.

Schließlich können Sie immer df = df.set_index('seconds') nennen, aber das ist viel langsamer als die Alternativen und erfordert einen Scan der Daten.