Da das Treiberprogramm "sc.textFile" ausführt, warum muss die Datei auf jedem Knoten vorhanden sein? Wenn wir es auf jeden Knoten kopieren, wie behandelt Spark dann die Ausführung von doppelten Daten?Warum Spark benötigt lokale Datei auf jedem Knoten vorhanden sein?
Antwort
Von der Funke Perspektive gibt es keine
Auf einem Treiber dupliziert wird es entscheiden, wie viele Partitionen Sie brauchen, und die Datei entsprechend aufgeteilt. Auf einem Fahrer werden Sie kennen lernen gibt es Partitionen wie
a.file - 0 to 1000
a.file - 1001 to 2000
a.file - 2001 to 3000
Später jeden Testamentsvollstrecker einen Pfad zu einer Datei und bestimmte Chunk zu lesen. Sie wissen nicht, dass Sie kein freigegebenes Dateisystem verwenden. Es kommt nur darauf an, einen Pfad zu der Datei zu haben und zu wissen, wo sie zu lesen ist. Es kann passieren, dass Sie nur einen Executor haben, aber alles geschieht auf die gleiche Weise. Dass nur ein Executor einen Speicherort und einen Teil zum Lesen hat. Einer nach dem anderen, bis die ganze Datei verarbeitet ist.
Es funktioniert genau so mit HDFS (Ich nehme an, Replikationsfaktor ist 1), aber mit HDFS ist es tatsächlich nur ein Verzeichnis mit nur einer Datei (sitzen auf einer bestimmten Maschine). Und alle Executoren gehen in dieses Verzeichnis. Wenn der Replikationsfaktor größer als 1 ist, dann ist es aus der Sicht des Funkens immer noch nur ein Verzeichnis, aber Anfragen würden zu verschiedenen Knoten kommen - dort, wo Kopien der Datei sind.
Verwenden Sie das hdfs-Dateisystem anstelle des lokalen Dateisystems, auf das von allen Spark-Knoten aus zugegriffen werden kann.
Ich verstehe das. Aber will die Logik hinter solchen Implikationen verstehen. –
- 1. Wie wird der Spark-Dataframe an jedem Executor-Knoten gesammelt?
- 2. Warum benötigt Ruby FFI attach_function Aufrufe, wenn Headerdateien vorhanden sind?
- 3. Loading lokale jquery.js Datei in Knoten js
- 4. Einzelner Knoten Standalone Spark?
- 5. Knoten async Erklärung benötigt
- 6. Warum benötigt removeChild einen Elternknoten?
- 7. Kopieren Sie lokale Datei, wenn vorhanden, mit Ansible
- 8. Schreiben von Daten auf die lokale Festplatte in jedem Datenknoten
- 9. Frühe Initialisierung von Objekten auf Worker-Knoten im Spark-Cluster
- 10. SpriteKit fügt jedem Knoten ein Federgelenk hinzu
- 11. Warum benötigt eine Python-Datei keine Ausführungsberechtigung?
- 12. Warum kann eine lokale Variable in C# nicht flüchtig sein?
- 13. Warum deckt Apache's RewriteRule lokale Pfade auf?
- 14. Spark auf Mesos ist viel langsamer als lokale
- 15. Return Knoten, wenn Beziehung nicht vorhanden ist
- 16. Lese lokale Parkett Dateien in Spark-2.0
- 17. Spark Worker-Knoten stoppt automatisch
- 18. Knoten Jitsu kann lokale Module nicht finden
- 19. Lokale Daten im Knoten react-intl
- 20. warum mySQL auf jedem Verbindungs / alle Ports
- 21. Spark-Executors auf Zeppelin erhöhen
- 22. Datei in Projektordner auf jedem Computer schreiben
- 23. Cypher: variable Länge Pfad mit Bedingung auf jedem Knoten
- 24. Prüfen, ob Knoten in h5py vorhanden ist
- 25. Warum benötigt SGEN.EXE Schreibzugriff auf referenzierte Assemblys?
- 26. Warum benötigt Apache + PHP Ausführungsberechtigungen zum Schreiben in eine Datei?
- 27. UIPanRecognizer: Kann nicht vorhanden sein AlertController
- 28. Warum benötigt sum GHC.Num.fromInteger?
- 29. Wann müssen abhängige DLLs vorhanden sein?
- 30. Warum benötigt React jsdom zum Testen?
Das hilft .. Danke. :) –
Sicher Sir .. :) –
@PuneetSingh, danke =) Hat das alle Fragen gelöst? Hast du noch mehr? Ich meine, da könnte etwas sein, was ich der Antwort hinzufügen kann. – evgenii