2016-04-22 3 views

Antwort

2

Eins kann ich sicher sagen, das Lesen von Parkett-Dateien von HDFS ist besser skalierbar im Vergleich zum Lesen von RDBMS wie Oracle über JDBC-Connector. Und der Grund dafür ist Datenlokalität - wenn Sie Ihre Spark-Executoren auf den gleichen Hosts ausführen, wo sich HDFS-Datenknoten befinden und Daten effektiv in den Speicher ohne Netzwerk-Overhead lesen können. Weitere Informationen finden Sie unter https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html und How does Apache Spark know about HDFS data nodes? .

Das Parkett-Format ist ebenfalls säulenförmig und hat Vorteile gegenüber herkömmlichen RDBMS als OLAP-Speicher (insbesondere bei spärlichen Daten). Kurzvergleich: https://www.wikiwand.com/en/Column-oriented_DBMS#/Benefits

+1

Parkettfeilen von FAR sind schneller zu lesen als von einer DB - etwa 3-4 Zehnerpotenzen schneller. –