Daten aus Hadoop HDFS mit SparkSQL-Konnektor lesen, um sie in Superset zu visualisieren?

Auf einem Ubuntu-Server habe ich Divolte Collector eingerichtet, um Clickstream-Daten von Websites zu sammeln. Die Daten werden in Hadoop HDFS (Avro-Dateien) gespeichert. (http://divolte.io/)Daten aus Hadoop HDFS mit SparkSQL-Konnektor lesen, um sie in Superset zu visualisieren?

Dann möchte ich die Daten mit Airbnb Superset visualisieren, die mehrere Anschlüsse zu gemeinsamen Datenbanken hat (dank SqlAlchemy), aber nicht zu HDFS.

Superset hat insbesondere einen Verbinder SparkSQL dank JDBC Hive (http://airbnb.io/superset/installation.html#database-dependencies)

So ist es möglich, es zu verwenden, um Daten abzurufen HDFS Klick? Dank

Quelle

2017-05-13 Alex Pa

verfügbar sein, wenn Sie gefragt werden, ob Funke SQL HDFS anschließen können. Dann ist die Antwort ja. –

Um HDFS Daten in SparkSQL gibt es zwei große Möglichkeiten, depening auf Ihrem Setup zu lesen:

Lesen Sie den Tisch, wie es in Hive (von einem entfernten Metastore lesen) (wahrscheinlich nicht Ihr Fall definiert wurde)
SparkSQL erstellt standardmäßig (wenn nicht anders konfiguriert) einen embedded metastore for Hive, mit dem Sie DDL- und DML-Anweisungen mithilfe der Hive-Syntax ausgeben können. Sie benötigen eine external package, damit das Gerät funktioniert com.databricks:spark-avro.
```
CREATE TEMPORARY TABLE divolte_data 
USING com.databricks.spark.avro 
OPTIONS (path "path/to/divolte/avro"); 
```

Nun Daten sollten in der Tabelle divolte_data

Quelle

2017-05-13 15:40:04

Danke für Ihre Antwort –

Daten aus Hadoop HDFS mit SparkSQL-Konnektor lesen, um sie in Superset zu visualisieren?

Antwort

Verwandte Themen