Enthält Spark SQL eine Tabellen-Streaming-Optimierung für Joins und, wenn ja, wie entscheidet es, welche Tabelle zu streamen ist?Enthält Spark SQL eine Tabellen-Streaming-Optimierung für Joins?
Beim Helfen nimmt Hive an, dass die letzte Tabelle die größte ist. Als Join-Optimierung wird versucht, die kleineren Join-Tabellen zwischenzuspeichern und den letzten zu streamen. Wenn die letzte Tabelle in der Verknüpfungsliste nicht die größte ist, hat Hive den /*+ STREAMTABLE(tbl) */
-Hinweis, der die Tabelle angibt, die gestreamt werden soll. Ab Version 1.4.1 unterstützt Spark SQL den STREAMTABLE-Hinweis nicht.
Diese Frage wurde für die normale RDD-Verarbeitung außerhalb von Spark SQL, here gestellt. Die Antwort gilt nicht für Spark SQL, wo der Entwickler keine Kontrolle über explizite Cache-Operationen hat.