So in Spark, wenn eine Anwendung gestartet wird, dann eine RDD mit dem Dataset für die Anwendung (z. B. Word-Dataset für WordCount) erstellt wird.RDD und Partition in Apache Spark
Bisher, was ich verstehe, ist, dass RDD eine Sammlung jener Worte in Wordcount ist und die Operationen, die (zB Karte, reduceByKey, etc ...) zu jenem Datensatz durchgeführt wurden
jedoch afaik, Funke hat auch HadoopPartition (oder im Allgemeinen: Partition), die von jedem Executor aus HDFS gelesen wird. Und ich glaube, dass ein RDD in Treiber auch alle diese Partitionen enthält.
Also, was wird unter Executoren in Spark aufgeteilt? Erhält jeder Executor diese Unterdatenmenge als eine einzelne RDD, die im Treiber weniger Daten enthält als RDD oder behandelt jeder Executor nur diese Partitionen und liest sie direkt aus HDFS? Wann werden die Partitionen erstellt? Auf der RDD-Erstellung?