2016-12-09 8 views
4

Ist es möglich, einen Pandas-Datenrahmen direkt in eine Parkett-Datei zu speichern? Wenn nicht, was wäre der vorgeschlagene Prozess?Python: Speichern Pandas Datenrahmen zu Parkett-Datei

Ziel ist es, die Parkettdatei an ein anderes Team senden zu können, das sie mit scala code lesen/öffnen können. Vielen Dank!

+0

Ist das andere Team Spark oder einige andere Scala-Tools? CSV laden ist Spark ist ziemlich trivial –

+0

Wenn Sie 'pyspark' haben, können Sie etwas tun wie [dies] (https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f#file-hdf_to_parquet-py) –

Antwort

6

Es gibt eine relativ frühe Implementierung eines Pakets namens fastparquet - es könnte ein guter Anwendungsfall für das sein, was Sie brauchen.

https://github.com/dask/fastparquet

conda install -c conda-forge fastparquet 

oder

pip install fastparquet 

from fastparquet import write 
write('outfile.parq', df) 

oder, wenn Sie einige Dateioptionen verwenden, wie Zeile Gruppierung/Kompression:

write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000], compression='GZIP', file_scheme='hive') 
0

pyarrow hat Unterstützung Pandas zum Speichern Datenrahmen:

import pyarrow 

pyarrow.Table.from_pandas(dataset) 
0

Pandas hat eine Kernfunktion to_parquet(). Schreiben Sie einfach den Datenrahmen auf Parkettformat wie folgt:

df.to_parquet('myfile.parquet') 
Verwandte Themen