2017-05-13 4 views
3

Auf einem Ubuntu-Server habe ich Divolte Collector eingerichtet, um Clickstream-Daten von Websites zu sammeln. Die Daten werden in Hadoop HDFS (Avro-Dateien) gespeichert. (http://divolte.io/)Daten aus Hadoop HDFS mit SparkSQL-Konnektor lesen, um sie in Superset zu visualisieren?

Dann möchte ich die Daten mit Airbnb Superset visualisieren, die mehrere Anschlüsse zu gemeinsamen Datenbanken hat (dank SqlAlchemy), aber nicht zu HDFS.

Superset hat insbesondere einen Verbinder SparkSQL dank JDBC Hive (http://airbnb.io/superset/installation.html#database-dependencies)

So ist es möglich, es zu verwenden, um Daten abzurufen HDFS Klick? Dank

+1

verfügbar sein, wenn Sie gefragt werden, ob Funke SQL HDFS anschließen können. Dann ist die Antwort ja. –

Antwort

2

Um HDFS Daten in SparkSQL gibt es zwei große Möglichkeiten, depening auf Ihrem Setup zu lesen:

  1. Lesen Sie den Tisch, wie es in Hive (von einem entfernten Metastore lesen) (wahrscheinlich nicht Ihr Fall definiert wurde)
  2. SparkSQL erstellt standardmäßig (wenn nicht anders konfiguriert) einen embedded metastore for Hive, mit dem Sie DDL- und DML-Anweisungen mithilfe der Hive-Syntax ausgeben können. Sie benötigen eine external package, damit das Gerät funktioniert com.databricks:spark-avro.

    CREATE TEMPORARY TABLE divolte_data 
    USING com.databricks.spark.avro 
    OPTIONS (path "path/to/divolte/avro"); 
    

Nun Daten sollten in der Tabelle divolte_data

+0

Danke für Ihre Antwort –

Verwandte Themen