Ich würde gerne wissen, wie collectAsMap in Spark funktioniert. Genauer möchte ich wissen, wo die Aggregation der Daten aller Partitionen stattfinden wird? Die Aggregation findet entweder in Master oder in Workers statt. Im ersten Fall sendet jeder Worker seine Daten an den Master und wenn der Master die Daten von jedem einzelnen Worker sammelt, aggregiert der Master die Ergebnisse. Im zweiten Fall sind die Arbeiter dafür verantwortlich, die Ergebnisse zu aggregieren (nachdem sie die Daten untereinander ausgetauscht haben) und danach werden die Ergebnisse an den Master gesendet.Spark CollectAsMap
Es ist wichtig für mich, einen Weg zu finden, so dass der Master die Daten von jeder Partition separat sammeln kann, ohne dass die Mitarbeiter Daten austauschen.
In Ihrer Terminologie ich glaube, Sie Treiber und nicht Meister zu sagen, bedeuten. Im Treiber werden die Erfassungsergebnisse aggregiert und vom Spark-Cluster gesendet. – Rich