Python: Speichern Pandas Datenrahmen zu Parkett-Datei

Ist es möglich, einen Pandas-Datenrahmen direkt in eine Parkett-Datei zu speichern? Wenn nicht, was wäre der vorgeschlagene Prozess?Python: Speichern Pandas Datenrahmen zu Parkett-Datei

Ziel ist es, die Parkettdatei an ein anderes Team senden zu können, das sie mit scala code lesen/öffnen können. Vielen Dank!

2016-12-09 Edamame

Ist das andere Team Spark oder einige andere Scala-Tools? CSV laden ist Spark ist ziemlich trivial –

Wenn Sie 'pyspark' haben, können Sie etwas tun wie [dies] (https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f#file-hdf_to_parquet-py) –

Es gibt eine relativ frühe Implementierung eines Pakets namens fastparquet - es könnte ein guter Anwendungsfall für das sein, was Sie brauchen.

conda install -c conda-forge fastparquet

oder

pip install fastparquet 

from fastparquet import write 
write('outfile.parq', df)

oder, wenn Sie einige Dateioptionen verwenden, wie Zeile Gruppierung/Kompression:

write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000], compression='GZIP', file_scheme='hive')

2017-02-17 18:01:21

pyarrow hat Unterstützung Pandas zum Speichern Datenrahmen:

import pyarrow 

pyarrow.Table.from_pandas(dataset)

2017-11-20 19:16:34 user113531

Pandas hat eine Kernfunktion to_parquet(). Schreiben Sie einfach den Datenrahmen auf Parkettformat wie folgt:

df.to_parquet('myfile.parquet')

2018-03-10 12:05:44 ben26941

Antwort