Ich verwende eine SparkSession, um eine Verbindung zu einer Hive-Datenbank herzustellen. Ich versuche zu entscheiden, wie man die Daten am besten anreichert. Ich habe Spark Sql benutzt, aber ich bin müde, es zu benutzen.Große Abfrage oder mutieren Dataframe?
Ruft der SparkSql gerade Hive Sql auf? Würde das bedeuten, dass Spark keine bessere Leistung bietet?
Wenn nicht, sollte ich nur eine große SQL-Abfrage zu funken erstellen, oder sollte ich eine Tabelle greifen Ich möchte es in einen Datenrahmen konvertieren und manipulieren sie mit Funken-Funktionen?
Es ist entweder das oder das. Die Verbesserung der Leistung mit Funken hängt mit so vielen Problemen zusammen, wie z. B. Datenlokalität, Unschärfe, ob Sie über genügend Arbeitsspeicher verfügen, um es zu laden oder nicht ... Daher können wir keine konkrete Antwort auf Ihre Frage geben. Und wie von @RickMoritz erwähnt, muss man ja testen ... – eliasah