Ich weiß, dass wir in RDDs von der Verwendung von groupByKey abgeraten wurden, und ermutigt, Alternativen wie reduceByKey() und aggregateByKey() zu verwenden, da diese anderen Methoden zuerst auf jeder Partition reduzieren und dann groupByKey() durchführen und somit die Datenmenge wird gemischt.Sollte ich groupby() in Dataset/Dataframe vermeiden?
Jetzt ist meine Frage, ob dies immer noch für Dataset/Dataframe gilt? Ich dachte, dass, da die Katalysator-Engine viele Optimierungen durchführt, der Katalysator automatisch weiß, dass er auf jeder Partition reduziert werden muss, und dann die Group-By durchführen soll. Hab ich recht? Oder wir müssen noch Schritte unternehmen, um sicherzustellen, dass die Reduktion auf jeder Partition vor groupBy durchgeführt wird.