2015-09-02 13 views
16

fand ich einige Code Funken beginnen lokal mit:Was bedeutet "lokal [*]" im Funken?

val conf = new SparkConf().setAppName("test").setMaster("local[*]") 
val ctx = new SparkContext(conf) 

Was bedeutet das [*]?

+1

Gibt es einen Grund für die Antwort nicht akzeptieren? – gsamaras

Antwort

30

Vom doc:

./bin/spark-shell --master local[2] 

--master Die Option, den Master-URL für ein verteiltes Cluster angibt, oder lokal vor Ort mit einem Gewinde oder lokale [N] laufen lokal auszuführen mit N Fäden. Sie sollten mit lokalen Tests beginnen.

Und von here:

lokalen [*] Run Funken vor Ort mit so vielen Arbeitsthreads als logische Kerne auf Ihrem Rechner.

5

Einige zusätzliche Info

Sie Spark-Streaming-Programme lokal mit Master konfiguriert als "lokal" oder "local [1]" nicht ausgeführt werden. Dadurch wird nur eine CPU für Tasks zugewiesen, und wenn ein Empfänger darauf ausgeführt wird, ist keine Ressource zum Verarbeiten der empfangenen Daten übrig. Verwenden Sie mindestens "local [2]", um mehr Kerne zu erhalten.

Von -Learning Funken: Blitzschnelle Big Data Analysis

6

Master-URL Bedeutung


lokalen: Führen Sie Spark-lokal mit einem Worker-Thread (dh keine Parallelität überhaupt).


local [K]: Run Spark-lokal mit K-Worker-Threads (im Idealfall, stellen Sie hier die Anzahl der Kerne auf Ihrem Rechner).


lokale [K, F]: Führen Funken lokal mit K Arbeitsthreads und F maxFailures (siehe spark.task.maxFailures nach einer Erklärung für diese Variable)


local [ *]: Führen Sie Spark lokal mit so vielen Arbeitsthreads wie logische Kerne auf Ihrem Computer aus.


lokalen [*, F]: Führen Sie Spark-lokal mit so vielen Arbeitsthreads als logische Kerne auf Ihrem Rechner und F maxFailures.


Funke: // HOST: PORT: Eine Verbindung mit dem angegebenen Spark-Standalone-Cluster-Master. Der Port muss dem entsprechen, für den Ihr Master konfiguriert ist, standardmäßig 7077.


Funke: // HOST1: PORT1, HOST2: PORT2: Eine Verbindung mit dem angegebenen Spark-Standalone-Cluster mit Standby-Master mit Zookeeper. In der Liste müssen alle Master-Hosts im Hochverfügbarkeitscluster mit Zookeeper eingerichtet sein. Der Port muss für jeden verwendeten Master konfiguriert sein, standardmäßig 7077.


mesos: // host: PORT: Eine Verbindung mit der gegebenen Mesos Cluster. Der Port muss dem entsprechen, für den Sie konfiguriert haben, standardmäßig 5050. Oder verwenden Sie für einen Mesos-Cluster mit ZooKeeper mesos: // zk: // .... Um mit dem Cluster -deploy-mode zu senden, sollte der HOST: PORT für die Verbindung mit dem MesosClusterDispatcher konfiguriert werden.


Garn: Verbinden mit einem Cluster in YARN Client oder Cluster-Modus in Abhängigkeit vom Wert des --deploy-Modus. Der Cluster-Speicherort wird basierend auf der Variablen HADOOP_CONF_DIR oder YARN_CONF_DIR gefunden.

https://spark.apache.org/docs/latest/submitting-applications.html