2016-10-11 2 views
1

Ich bin ein Spark-Anfänger! Und ich bin verwirrt über die Beziehung zwischen Spark rdd und Spark sql. Ob Spark sql im Hintergrund zu Spark rdd konvertiert werden soll?Was ist die Beziehung zwischen Spark rdd und Spark sql?

+0

finden Sie in der Programmieranleitung: http://spark.apache.org/docs/latest/programming-guide.html – mtoto

+0

Mögliches Duplikat von [Unterschied zwischen Datenrahmen und RDD in Spark] (http://stackoverflow.com/questions/31508083/difference-zwischen-datenframe-und-rdd-in-spark) –

Antwort

1

Soweit ich weiß, sitzen sie auf verschiedenen Motoren.

Spark SQL nutzt eine interne Sache namens Catalyst, die für die Erstellung logischer Pläne für die Arbeit und die Leistungsoptimierung in Bezug auf Codegen verantwortlich ist.

Erstens, weil Dataframe und Dataset-APIs auf den Spark-SQL-Engine eingebaut sind, verwendet er Katalysator einen optimierte logischen und physischen Abfrageplan zu erzeugen.

https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html

Die RDD api auf der anderen Seite, ist niedriges Niveau, und anscheinend Katalysator nicht wirksam einzusetzen.

+1

Sehr dankbar für Ihre Antwort. Dies löste meine Verwirrung. – liyong