Ich bin neu bei spark/Zeppelin und ich wollte eine einfache Übung, wo ich eine csv-Datei von Pandas zu Spark-Datenrahmen zu transformieren und dann registrieren Sie die Tabelle mit sql abfragen und mit Zeppelin visualisieren.Zeppelin - Kann nicht mit% sql eine Tabelle abfragen Ich registrierte mich bei pyspark
Aber ich scheine im letzten Schritt zu versagen.
Ich bin mit Funken 1.6.1
Hier ist mein Code:
%pyspark
spark_clean_df.registerTempTable("table1")
print spark_clean_df.dtypes
print sqlContext.sql("select count(*) from table1").collect()
Hier ist der Ausgang:
[('id', 'bigint'), ('name', 'string'), ('host_id', 'bigint'), ('host_name', 'string'), ('neighbourhood', 'string'), ('latitude', 'double'), ('longitude', 'double'), ('room_type', 'string'), ('price', 'bigint'), ('minimum_nights', 'bigint'), ('number_of_reviews', 'bigint'), ('last_review', 'string'), ('reviews_per_month', 'double'), ('calculated_host_listings_count', 'bigint'), ('availability_365', 'bigint')]
[Row(_c0=4961)]
Aber wenn ich versuche% SQL verwenden ich das bekommen Fehler:
%sql
select * from table1
Table not found: table1; line 1 pos 14
set zeppelin.spark.sql.stacktrace = true to see full stacktrace
Beliebig Hilfe wäre willkommen - ich weiß nicht einmal, wo ich diesen StackTrace finde und wie könnte er mir helfen.
Thanks :)
Dieser Link war besonders nützlich, wenn es um dieses Problem ging: http://spark.apache.org/docs/latest/sql-programming-guide.html – StefanK