Ich bin neu zu funken und allgemeine Frage zu haben. Soweit ich weiß, muss die ganze Datei auf allen Worker-Knoten zur Verfügung stehen. Wenn ja, wie wissen sie, welche Partition sollte lesen? Treiber steuert die Partitionen, aber wie sagt Ihnen der Treiber, welche Partition er lesen soll?Datenverteilung in Apache Spark
Antwort
Jede RDD ist in mehrere Partitionen unterteilt. Zur Berechnung jeder Partition generiert Spark eine Aufgabe und weist sie einem Worker-Knoten zu. Wenn der Treiber eine Aufgabe an den Worker sendet, gibt er auch die Partitions-ID dieser Aufgabe an.
Der Worker führt die Task dann aus, indem er den Iterator des RDD vollständig an den InputRDD ankettet und die PartitionsID weiterleitet. Das InputRDD bestimmt, welcher Teil der Eingabe der angegebenen Partitions-ID entspricht, und gibt die Daten zurück.
rddIter.next -> parentRDDIter.next -> grandParentRDDIter.next -> ... -> InputRDDIter.next
Spark versucht, Daten von den Knoten, die sich in der Nähe befinden, in eine RDD zu lesen. Da Spark in der Regel auf verteilte partitionierte Daten zugreift, werden zur Optimierung von Umwandlungsoperationen Partitionen erstellt, die die Datenblöcke enthalten.
https://github.com/jaceklaskowski/mastering-apache-spark-book
- 1. Fallklassengleichheit in Apache Spark
- 2. Apache Spark vs Apache Storm
- 3. Google Cloud Platform - Datenverteilung
- 4. Java-Anforderungen in Apache Spark
- 5. Filter in Apache Spark nicht
- 6. Matrix Multiplikation in Apache Spark
- 7. Apache Spark-Implementierung
- 8. Apache Spark RDD-Workflow
- 9. Bluemix Apache Spark Metrics
- 10. Apache Spark App-Workflow
- 11. Zugriffskontrolle für Apache spark
- 12. Apache Spark-Build-Fehler
- 13. Apache Spark-Fehler
- 14. Apache Drill vs Spark
- 15. NoClassDefFoundError: org/apache/spark/sql/Datenrahmen in Spark-Cassandra-Connector
- 16. Apache Spark auf EC2 "Killed"
- 17. Apache Spark Stderr und Stdout
- 18. Apache Spark-merge nach updateStateByKey()
- 19. Apache Spark TFIDF mit Python
- 20. Apache Phoenix vs Hive-Spark
- 21. Apache Spark - datediff für Datenrahmen?
- 22. Fehler mit Apache Spark-Installations
- 23. Apache Spark - Wie langsam Aufgaben
- 24. Apache Spark - MLlib - Matrix Multiplikation
- 25. Windows: Apache Spark History Serverkonfiguration
- 26. Verarbeitet Apache Spark unstrukturierte Mehrzeilendaten?
- 27. Apache Spark: Netzwerkfehler zwischen Executoren
- 28. Apache Spark-ALS Empfehlungen nähern
- 29. Apache Spark GraphX verbundene Komponenten
- 30. Apache Spark: distinct funktioniert nicht?
Haben Sie bedeuten, dass Arbeiter alle ihre Partitionen zuerst holen und sie dann verarbeiten? – saeed