dask csv lesen reihenfolge

ich habe eine zeit reihe welche werte in verschiedenen csv gespeichert sind. Jeder CSV ist sortiert und enthält eine variable Sekunden, die ein Zeitscan ist.dask csv lesen reihenfolge

df = dd.read_csv('/home/data/derived/ips_subnets.7days/*') 
df.head() 

      seconds    IP  subnet 
    0 1477252800 Private-10.0.0.0 10.101.15.6 
    1 1477252800 Private-10.0.0.0 10.102.223.2 
    2 1477252800 Private-10.0.0.0 10.104.15.43 
    3 1477252800 Private-10.0.0.0 10.104.5.241 
    4 1477252800 Private-10.0.0.0 10.106.15.26

Nun, wie kann ich einstellen, dass die CSV-Dateien sollen nach den Variablen seconds, um gelesen werden?

Quelle

2016-11-29 Donbeo

Standardmäßig dask.dataframe.read_csv liest Dateien in alphabetischer Reihenfolge, also wenn Ihre Dateinamen ein Standard-Benennungsschema folgen, wie 2016-05-06.csv dann sollten Sie in Ordnung sein.

Wenn Sie möchten, können Sie dies mit dask.delayed anpassen. Hier ist eine ähnliche example notebook.

Schließlich können Sie immer df = df.set_index('seconds') nennen, aber das ist viel langsamer als die Alternativen und erfordert einen Scan der Daten.

Quelle

2016-12-03 14:07:50 MRocklin

dask csv lesen reihenfolge

Antwort

Verwandte Themen