2017-01-27 4 views
4

Ich versuche, die Sparksession/Spark Kontext Standardkonfigurationen zu überschreiben, aber es ist die gesamte Knoten/Cluster-Ressource auswählen.spark 2.1.0 Sitzungskonfigurationseinstellungen (pyspark)

spark = SparkSession.builder 
         .master("ip") 
         .enableHiveSupport() 
         .getOrCreate() 

spark.conf.set("spark.executor.memory", '8g') 
spark.conf.set('spark.executor.cores', '3') 
spark.conf.set('spark.cores.max', '3') 
spark.conf.set("spark.driver.memory",'8g') 
sc = spark.sparkContext 

Es funktioniert gut, wenn ich die Konfiguration in Funken einreichen setzen

spark-submit --master ip --executor-cores=3 --diver 10G code.py 
+0

Was ist der Ressourcenmanager? Spark Standalone/YARN – mrsrinivas

+0

Spark Standalone – Harish

+0

Andere Möglichkeit mit 2.0 ist 'conf = (SparkConf(). Set (" spark.executor.cores "," 3 ")); spark = SparkSession.builder .master ("ip"). conf (conf = conf) .enableHiveSupport() .getOrCreate() ' – mrsrinivas

Antwort

6

Du eigentlich nichts mit diesem Code zu überschreiben. Nur damit Sie selbst sehen können versuchen Sie folgendes.

Sobald Sie pyspark Shell Art starten:

sc.getConf().getAll() 

Dies zeigt Ihnen alle aktuellen Konfigurationseinstellungen. Dann versuchen Sie Ihren Code und machen Sie es erneut. Nichts verändert sich.

Sie sollten stattdessen eine neue Konfiguration erstellen und diese verwenden, um einen SparkContext zu erstellen. Machen Sie es wie folgt aus:

conf = pyspark.SparkConf().setAll([('spark.executor.memory', '8g'), ('spark.executor.cores', '3'), ('spark.cores.max', '3'), ('spark.driver.memory','8g')]) 
sc.stop() 
sc = pyspark.SparkContext(conf=conf) 

Dann können Sie selbst überprüfen, wie oben mit:

sc.getConf().getAll() 

Damit ist die Konfiguration widerspiegeln sollte man wollte.

+1

In spark 2.1.0/2.2.0 können wir sc = pyspark.SparkContext wie folgt definieren. Keine Option zum Übergeben des Parameters. – Harish

+0

Sagst du, dass es nicht möglich ist, es zu übergeben? Die Dokumente haben es immer noch als Argument aufgelistet, siehe [hier] (http://spark.apache.org/docs/latest/api/python/pyspark.html#pypark.SparkContext) – Grr

+1

[Siehe hier https: // spark .apache.org/docs/neueste/api/python/pyspark.sql.html # module-pyspark.sql]. Ich bin nicht klar, was ist der Einstiegspunkt jetzt? – Harish

Verwandte Themen