Spark-Dataset oder Datenframe für die Aggregation

Wir haben einen MapR-Cluster mit Spark-Version 2.0 Wir versuchen, den Leistungsunterschied einer Hive-Abfrage zu messen, die derzeit auf TEZ-Engine ausgeführt wird und dann auf Spark-sql nur durch das Schreiben der SQL-Abfrage in. HQL-Datei und dann Aufruf über Shell-Datei.Spark-Dataset oder Datenframe für die Aggregation

Abfrage enthält viele Join, die auf jeden Fall mehrere Stufen erstellen und Mischen wird in diesem Szenario passieren, was die optimale Wahl wäre.

Ist es wahr, dass Datensätze in Spark ist langsamer als Dataframes für Aggregationen wie groupBy, max, min, count..etc ..

Also in dem, was alle Bereiche Dataframes besser als Datasets und umgekehrt durchführen .. ?

Quelle

2017-10-17 AJm

In Spark 2.0 ist Dataset [Row] ein Alias für Dataframe, daher sollte es kein Leistungsproblem geben.

Bitte sehen:

Quelle

2017-10-17 20:24:08

Damit Spark-Datasets & Dataframe sind, bedeutet sehr ähnlich in der Leistung in allen Aspekten ..? – AJm

@Aijaz ja Dataset = Dataframe + Typ Sicherheit –

Spark-Dataset oder Datenframe für die Aggregation

Antwort

Verwandte Themen