GroupbyKey auf Spark-Datensatz

Verursacht groupByKey eine Mischung aller Werte im Netzwerk, auch wenn sie bereits innerhalb einer Partition angeordnet sind. Wenn wir in sparkSQL gruppieren, verwendet es groupbykey oder aggregateByKey für die Leistung ?GroupbyKey auf Spark-Datensatz

Quelle

2017-06-08 Bhavesh Gadoya

groupByKey werden Daten nicht gemischt, wenn die Schlüssel alle in jeder Partition liegen. Aber das wäre ein seltener Fall.

groupBy Operation in sparkSQL ist eine aggregateByKey, die es eine Aggregationsoperation macht. Wir können Aggregationsfunktionen nach groupBy in sparkSQL definieren. groupBy Erstellen Sie einfach eine Instanz der Aggregation Expressions für jede Gruppe und jede Aggregation und gehen Sie durch die Daten und aktualisieren Sie diese Ausdrücke

Quelle

2017-06-08 14:53:41

GroupbyKey auf Spark-Datensatz

Antwort

Verwandte Themen