0

Wir haben einen MapR-Cluster mit Spark-Version 2.0 Wir versuchen, den Leistungsunterschied einer Hive-Abfrage zu messen, die derzeit auf TEZ-Engine ausgeführt wird und dann auf Spark-sql nur durch das Schreiben der SQL-Abfrage in. HQL-Datei und dann Aufruf über Shell-Datei.Spark-Dataset oder Datenframe für die Aggregation

Abfrage enthält viele Join, die auf jeden Fall mehrere Stufen erstellen und Mischen wird in diesem Szenario passieren, was die optimale Wahl wäre.

Ist es wahr, dass Datensätze in Spark ist langsamer als Dataframes für Aggregationen wie groupBy, max, min, count..etc ..

Also in dem, was alle Bereiche Dataframes besser als Datasets und umgekehrt durchführen .. ?

Antwort

Verwandte Themen