Warum Spark benötigt lokale Datei auf jedem Knoten vorhanden sein?

Da das Treiberprogramm "sc.textFile" ausführt, warum muss die Datei auf jedem Knoten vorhanden sein? Wenn wir es auf jeden Knoten kopieren, wie behandelt Spark dann die Ausführung von doppelten Daten?Warum Spark benötigt lokale Datei auf jedem Knoten vorhanden sein?

Quelle

2016-04-12 Puneet Singh

Von der Funke Perspektive gibt es keine

Auf einem Treiber dupliziert wird es entscheiden, wie viele Partitionen Sie brauchen, und die Datei entsprechend aufgeteilt. Auf einem Fahrer werden Sie kennen lernen gibt es Partitionen wie

a.file - 0 to 1000 
a.file - 1001 to 2000 
a.file - 2001 to 3000

Später jeden Testamentsvollstrecker einen Pfad zu einer Datei und bestimmte Chunk zu lesen. Sie wissen nicht, dass Sie kein freigegebenes Dateisystem verwenden. Es kommt nur darauf an, einen Pfad zu der Datei zu haben und zu wissen, wo sie zu lesen ist. Es kann passieren, dass Sie nur einen Executor haben, aber alles geschieht auf die gleiche Weise. Dass nur ein Executor einen Speicherort und einen Teil zum Lesen hat. Einer nach dem anderen, bis die ganze Datei verarbeitet ist.

Es funktioniert genau so mit HDFS (Ich nehme an, Replikationsfaktor ist 1), aber mit HDFS ist es tatsächlich nur ein Verzeichnis mit nur einer Datei (sitzen auf einer bestimmten Maschine). Und alle Executoren gehen in dieses Verzeichnis. Wenn der Replikationsfaktor größer als 1 ist, dann ist es aus der Sicht des Funkens immer noch nur ein Verzeichnis, aber Anfragen würden zu verschiedenen Knoten kommen - dort, wo Kopien der Datei sind.

Quelle

2016-04-13 20:49:29 evgenii

Das hilft .. Danke. :) –

Sicher Sir .. :) –

@PuneetSingh, danke =) Hat das alle Fragen gelöst? Hast du noch mehr? Ich meine, da könnte etwas sein, was ich der Antwort hinzufügen kann. – evgenii

Verwenden Sie das hdfs-Dateisystem anstelle des lokalen Dateisystems, auf das von allen Spark-Knoten aus zugegriffen werden kann.

Quelle

2016-04-12 10:11:52

Ich verstehe das. Aber will die Logik hinter solchen Implikationen verstehen. –

Warum Spark benötigt lokale Datei auf jedem Knoten vorhanden sein?

Antwort

Verwandte Themen