Wenn ich Datenrahmen speichere diese Art und Weise in Java, ...:Wie Parkett Dateien aus hadoopish Ordnern laden
df.write().parquet("myTest.parquet");
..., dann wird es in einer hadoopish Weise (ein Ordner mit zahlreichen Dateien gespeichert).
Kann der Datenrahmen als einzelne Datei gespeichert werden? Ich habe versucht collect()
, aber es hilft nicht.
Wenn es unmöglich ist, dann ist meine Frage, wie soll ich die Python-Code-Dateien zum Lesen Parkett aus hadoopish Ordnern df.write().parquet("myTest.parquet")
erstellt ändern:
load_df = sqlContext.read.parquet("myTest.parquet").where('field1="aaa"').select('field2', 'field3').coalesce(64)