2016-11-21 8 views
0

Ich habe die Standalone Spark Cluster verwendet, um mehrere Dateien zu verarbeiten. Bei der Ausführung des Treibers wurden die Daten für jeden Worker mit seinen Kernen verarbeitet.Was ist der Unterschied zwischen SPARK Partitionen und Worker Cores?

Nun, ich habe über Partitions, lesen, aber ich habe es nicht bekommen, wenn es anders ist als die Arbeiter Cores oder nicht.

Gibt es einen Unterschied zwischen cores number und partition numbers Einstellung?

+1

Mögliche Duplikate von [Was sind Arbeiter, Ausführende, Kerne in Spark Standalone-Cluster?] (Http://stackoverflow.com/questions/32621990/what-are-workers-executors-cores-in-spark-standalone -Cluster) – arglee

Antwort

2

Simplistic Ansicht: Partition vs Anzahl der Adern

Wenn Sie eine Aktion ein RDD aufrufen,

  • Ein "Job" ist für sie geschaffen. Also, Job ist eine Arbeit, die zum Funken gebracht wird.
  • Jobs sind unterteilt nach "STAGE" basierend auf der Shuffle-Grenze !!!
  • Jede Stufe ist weiter in Tasks unterteilt, die auf der Anzahl der Partitionen auf der RDD basieren. Aufgabe ist also kleinste Arbeitseinheit für Funken.
  • Nun, wie viele dieser Aufgaben hängt ausgeführt werden können, gleichzeitig auf der „Anzahl der Cores“ verfügbar !!!
2

Partition (oder Aufgabe) bezieht sich auf eine Arbeitseinheit. Wenn Sie eine 200G-Hadoop-Datei haben, die als RDD geladen ist und von 128M (Spark-Standard) chunked wird, dann haben Sie ~ 2000 Partitionen in dieser RDD. Die Anzahl der Kerne bestimmt, wie viele Partitionen gleichzeitig verarbeitet werden können, und bis zu 2000 (begrenzt auf die Anzahl der Partitionen/Tasks) kann diese RDD parallel ausgeführt werden.

Verwandte Themen