2016-04-12 6 views

Antwort

1

Von der Funke Perspektive gibt es keine

Auf einem Treiber dupliziert wird es entscheiden, wie viele Partitionen Sie brauchen, und die Datei entsprechend aufgeteilt. Auf einem Fahrer werden Sie kennen lernen gibt es Partitionen wie

a.file - 0 to 1000 
a.file - 1001 to 2000 
a.file - 2001 to 3000 

Später jeden Testamentsvollstrecker einen Pfad zu einer Datei und bestimmte Chunk zu lesen. Sie wissen nicht, dass Sie kein freigegebenes Dateisystem verwenden. Es kommt nur darauf an, einen Pfad zu der Datei zu haben und zu wissen, wo sie zu lesen ist. Es kann passieren, dass Sie nur einen Executor haben, aber alles geschieht auf die gleiche Weise. Dass nur ein Executor einen Speicherort und einen Teil zum Lesen hat. Einer nach dem anderen, bis die ganze Datei verarbeitet ist.

Es funktioniert genau so mit HDFS (Ich nehme an, Replikationsfaktor ist 1), aber mit HDFS ist es tatsächlich nur ein Verzeichnis mit nur einer Datei (sitzen auf einer bestimmten Maschine). Und alle Executoren gehen in dieses Verzeichnis. Wenn der Replikationsfaktor größer als 1 ist, dann ist es aus der Sicht des Funkens immer noch nur ein Verzeichnis, aber Anfragen würden zu verschiedenen Knoten kommen - dort, wo Kopien der Datei sind.

+0

Das hilft .. Danke. :) –

+0

Sicher Sir .. :) –

+0

@PuneetSingh, danke =) Hat das alle Fragen gelöst? Hast du noch mehr? Ich meine, da könnte etwas sein, was ich der Antwort hinzufügen kann. – evgenii

0

Verwenden Sie das hdfs-Dateisystem anstelle des lokalen Dateisystems, auf das von allen Spark-Knoten aus zugegriffen werden kann.

+0

Ich verstehe das. Aber will die Logik hinter solchen Implikationen verstehen. –

Verwandte Themen