Ich möchte Daten in separate Textdateien exportieren; Ich kann es mit diesem Hack tun:Python Spark Dataframes: Bessere Möglichkeit, Gruppen in Textdatei zu exportieren
for r in sqlContext.sql("SELECT DISTINCT FIPS FROM MY_DF").map(lambda r: r.FIPS).collect():
sqlContext.sql("SELECT * FROM MY_DF WHERE FIPS = '%s'" % r).rdd.saveAsTextFile('county_{}'.format(r))
Was ist der richtige Weg, es mit Spark 1.3.1/Python
Datenrahmen zu tun? Ich möchte es in einem einzigen Job machen, im Gegensatz zu N (oder N + 1) Jobs.
können sein:
saveAsTextFileByKey()
Es gibt eine Möglichkeit, dies in PySpark 1.4 + zu tun: http://Stackoverflow.com/a/37150604/877069 –
Mögliche Duplikate von [Schreiben auf mehrere Ausgänge per Schlüssel Spark - ein Spark Job] (http://stackoverflow.com/questions/23995040/write-to-multiple-outputs-by-key-spark-one-spark-job) –