Gibt es Implementierungen von Spark SQL DataSources, die Co-Partitions Joins anbieten - am wahrscheinlichsten über das CoGroupRDD? Ich habe keine Verwendung innerhalb der vorhandenen Spark Codebasis gesehen.Co-partitionierte Joins in Spark SQL
Die Motivation wäre stark den Shuffle-Verkehr in dem Fall zu verringern, die zwei Tabellen die gleiche Anzahl und gleiche Bereiche von Partitionierungsschlüsseln haben: In diesem Fall gäbe es eine Mx1- anstelle eine MxN Shuffle Fanout.
Die einzige großtechnische Umsetzung von derzeit tritt in Spark-SQL scheint ShuffledHashJoin zu sein - die tut die MxN Shuffle Fanout erfordern und somit teuer ist.
Danke Michael. Freue mich auf den Bucket beitreten. – javadba