2017-06-08 3 views
1

Verursacht groupByKey eine Mischung aller Werte im Netzwerk, auch wenn sie bereits innerhalb einer Partition angeordnet sind. Wenn wir in sparkSQL gruppieren, verwendet es groupbykey oder aggregateByKey für die Leistung ?GroupbyKey auf Spark-Datensatz

Antwort

0

groupByKey werden Daten nicht gemischt, wenn die Schlüssel alle in jeder Partition liegen. Aber das wäre ein seltener Fall.

groupBy Operation in sparkSQL ist eine aggregateByKey, die es eine Aggregationsoperation macht. Wir können Aggregationsfunktionen nach groupBy in sparkSQL definieren. groupBy Erstellen Sie einfach eine Instanz der Aggregation Expressions für jede Gruppe und jede Aggregation und gehen Sie durch die Daten und aktualisieren Sie diese Ausdrücke

Verwandte Themen