Welchen sollte ich in spark sql für bessere Leistung verwenden, entweder das Lesen der Daten aus der Parquet-Datei oder das Lesen von Daten aus der Datenbank?

Jetzt bin ich Anfänger in Spark sql (in scala lang). Ich möchte Abfragen ausführen. Erhöht die Verwendung von Parkettfiltern wirklich die Leistung? Müssen Parkettdateien oder Daten aus der Datenbank (Oracle) in HDFS zur Ausführung von Spark-Abfragen abgelegt werden? Welches ist der richtige Weg?Welchen sollte ich in spark sql für bessere Leistung verwenden, entweder das Lesen der Daten aus der Parquet-Datei oder das Lesen von Daten aus der Datenbank?

2016-04-22 Vimal

Eins kann ich sicher sagen, das Lesen von Parkett-Dateien von HDFS ist besser skalierbar im Vergleich zum Lesen von RDBMS wie Oracle über JDBC-Connector. Und der Grund dafür ist Datenlokalität - wenn Sie Ihre Spark-Executoren auf den gleichen Hosts ausführen, wo sich HDFS-Datenknoten befinden und Daten effektiv in den Speicher ohne Netzwerk-Overhead lesen können. Weitere Informationen finden Sie unter https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html und How does Apache Spark know about HDFS data nodes? .

Das Parkett-Format ist ebenfalls säulenförmig und hat Vorteile gegenüber herkömmlichen RDBMS als OLAP-Speicher (insbesondere bei spärlichen Daten). Kurzvergleich: https://www.wikiwand.com/en/Column-oriented_DBMS#/Benefits

2016-04-22 08:56:14

Parkettfeilen von FAR sind schneller zu lesen als von einer DB - etwa 3-4 Zehnerpotenzen schneller. –

Antwort