Können Sie von einem Funkenjob direkt auf Festplatte lesen/schreiben?

Die Ausgabe eines Spark-Jobs muss in hdfs geschrieben und von dort heruntergeladen werden. Oder könnte es direkt in das lokale Dateisystem geschrieben werden.Können Sie von einem Funkenjob direkt auf Festplatte lesen/schreiben?

Quelle

2017-10-17 Aditya

Grundsätzlich, nein, Sie können die nativen Schreib-APIs von spark nicht verwenden (z. B. df.write.parquet), um in lokale Dateisystemdateien zu schreiben. Wenn Sie im lokalen Funf-Modus (auf Ihrem eigenen Computer, nicht in einem Cluster) arbeiten, werden Sie von Ihrem lokalen Dateisystem lesen/schreiben. In einer Cluster-Einstellung (Standalone/YARN/etc) ist das Schreiben in HDFS jedoch der einzige logische Ansatz, da Partitionen [generell] auf separaten Knoten enthalten sind.

zu HDFS Schreiben ist inhärent verteilt, während die lokalen Dateisystem schreibt mindestens 1 von 2 Probleme würden beinhalten:

1) Schreiben zu Knoten-lokalen Dateisystem Dateien auf allen unterschiedlichen Knoten (5 Dateien auf 1 Knoten würde bedeuten, 7 Dateien auf einem anderen, etc)

2) schreiben Fahrerdateisystem erfordern würde all die Ausführenden der Ergebnisse für den Fahrer ähnlich läuft collect

Senden Sie den Fahrer lokalen Dateisystem traditionell ich schreiben können unter Verwendung von/O Operationen, die in Sprachen wie Python oder Scala integriert sind.

Relevante SOs:

How to write to CSV in Spark

Save a spark RDD to the local file system using Java

Spark (Scala) Writing (and reading) to local file system from driver

Quelle

2017-10-17 17:18:16 Garren

Können Sie von einem Funkenjob direkt auf Festplatte lesen/schreiben?

Antwort

Verwandte Themen