Ich habe etwas Verwirrung über Parallelität in Spark und Scala. Ich führe ein Experiment durch, in dem ich viele (csv) Dateien von der Platte lesen muss, um bestimmte Spalten zu ändern/zu bearbeiten und sie dann auf die Platte zurückzuschreiben.Verständnis der Parallelität in Spark und Scala
In meinen Experimenten, wenn ich SparkContext parallelize-Methode nur dann verwenden, scheint es keinen Einfluss auf die Leistung. Die Verwendung von Scalas parallelen Sammlungen (durch Par) reduziert die Zeit jedoch fast auf die Hälfte.
Ich führe meine Experimente im Localhost-Modus mit den Argumenten local [2] für den Funkenkontext aus.
Meine Frage ist, wann sollte ich scala Parallelsammlungen verwenden und wann Parallelisierung von Funken Kontext verwenden?
Es gibt verschiedene parallele Sammlungen in Scala. Bitte beachten Sie: http: //docs.scala-lang.org/overviews/parallel-collections/conversions.html und http://docs.scala-lang.org/overviews/parallel-collections/concrete-parallel-collections.html –