2017-03-28 6 views
3

Angenommen, ich habe eine Reihe von dask Arrays wie:Dask, erstellen Sie einen Datenrahmen aus mehreren dask Arrays

c1 = da.from_array(np.arange(100000, 190000), chunks=1000) 
c2 = da.from_array(np.arange(200000, 290000), chunks=1000) 
c3 = da.from_array(np.arange(300000, 390000), chunks=1000) 

ist es möglich, einen dask Datenrahmen von ihnen zu schaffen? In Pandas könnte ich sagen:

data = {} 
data['c1'] = c1 
data['c2'] = c2 
data['c3'] = c3 

df = pd.DataFrame(data) 

gibt es eine ähnliche Möglichkeit, dies mit dask zu tun?

+1

Ich vermute, dass Sie dies mit einer Kombination von 'dd.from_dask_array' tun könnte und' dd.concat (..., Achse = 1) '. – MRocklin

Antwort

3

Folgendes sollte funktionieren:

import pandas as pd, numpy as np 
import dask.array as da, dask.dataframe as dd 

c1 = da.from_array(np.arange(100000, 190000), chunks=1000) 
c2 = da.from_array(np.arange(200000, 290000), chunks=1000) 
c3 = da.from_array(np.arange(300000, 390000), chunks=1000) 

# generate dask dataframe 
ddf = dd.concat([dd.from_dask_array(c) for c in [c1,c2,c3]], axis = 1) 
# name columns 
ddf.columns = ['c1', 'c2', 'c3']