2017-10-17 3 views

Antwort

1

Grundsätzlich, nein, Sie können die nativen Schreib-APIs von spark nicht verwenden (z. B. df.write.parquet), um in lokale Dateisystemdateien zu schreiben. Wenn Sie im lokalen Funf-Modus (auf Ihrem eigenen Computer, nicht in einem Cluster) arbeiten, werden Sie von Ihrem lokalen Dateisystem lesen/schreiben. In einer Cluster-Einstellung (Standalone/YARN/etc) ist das Schreiben in HDFS jedoch der einzige logische Ansatz, da Partitionen [generell] auf separaten Knoten enthalten sind.

zu HDFS Schreiben ist inhärent verteilt, während die lokalen Dateisystem schreibt mindestens 1 von 2 Probleme würden beinhalten:

1) Schreiben zu Knoten-lokalen Dateisystem Dateien auf allen unterschiedlichen Knoten (5 Dateien auf 1 Knoten würde bedeuten, 7 Dateien auf einem anderen, etc)

2) schreiben Fahrerdateisystem erfordern würde all die Ausführenden der Ergebnisse für den Fahrer ähnlich läuft collect

Senden Sie den Fahrer lokalen Dateisystem traditionell ich schreiben können unter Verwendung von/O Operationen, die in Sprachen wie Python oder Scala integriert sind.

Relevante SOs:

How to write to CSV in Spark

Save a spark RDD to the local file system using Java

Spark (Scala) Writing (and reading) to local file system from driver

Verwandte Themen