Die RDD ist Schlüssel-Wert-Paar. groupByKey() könnte eine Menge Shuffle erzeugen, was die Performance beeinträchtigt. Ich frage mich, wie unnötige Shuffle mit groupByKey()So reduzieren Sie zu viele Shuffle mit groupByKey()
reduzieren Wenn ich zuerst RDD zuerst und dann GroupByKey, wird es helfen?
val inputRdd2 = inputRdd.partitionBy(new HashPartitioner(partitions=500))
inputRdd2.groupByKey()
Erstellt partitionBy() auch shuffle? Danke