Unser Anwendungsfall ist eine enge Tabelle (15 Felder), aber große Verarbeitung gegen den gesamten Datensatz (Milliarden von Zeilen). Ich frage mich, welche Kombination eine bessere Leistung bietet:Spark auf Parkett vs Funken auf Hive (Parkett Format)
env: CDH5.8/Funken 2,0
- Funken auf Hive Tabellen (als Format von Parkett)
- Funken auf Zeilendateien (Parkett)
Es gibt bekannte Probleme über Scala-Lambdas, die langsamer sind als SparkSQL-Ausdrücke (die skalare Typen direkt verwenden, kein Roundtrip zu Objects), aber es ist normalerweise marginal. Der ORC-Vektor-Leser ist für Spark 2.3 geplant, wenn ich mich gut erinnere, während Parquet bereits die Vektorisierung unterstützt. Anders als das ... Ich bin ein alter SQL-Benutzer, der scala portmanteau Ausdrücke lächerlich findet, wie so viele Würstchen Saiten, aber das ist meine persönliche Meinung (Set-basierte Semantik, Baby!) –
SparkSQL auf Row-Dateien (Parkett oder ORC) . Was meinst du mit Row-Dateien? Orc ist säulenartiger Speicher rechts – Achyuth