Ich habe eine EC2
eingerichtet mit r3.8xlarge (32 cores, 244G RAM)
.Spark: Master lokal [*] ist viel langsamer als Master lokal
In meiner Spark
Anwendung, lese ich zwei CSV-Dateien aus S3
Spark-CSV
von databrick verwenden, hat jeder csv etwa 5 Millionen Zeilen. Ich bin unionAll
die zwei DataFrames und läuft eine auf dem kombinierten DataFrame.
Aber als ich habe,
val conf = new SparkConf()
.setMaster("local[32]")
.setAppName("Raw Ingestion On Apache Spark")
.set("spark.sql.shuffle.partitions", "32")
Spark ist langsamer als .setMaster("local")
Wäre es nicht mit 32 Kernen schneller?