0

Hat jemand jemals Google Analytics-Daten in Azure verschoben? Ich habe eine Handvoll Möglichkeiten gesehen, aber ich bin mir nicht sicher, worauf ich mich einlasse. Die Google Analytics-Daten werden ziemlich groß und ich frage mich, ob es am besten geeignet ist, Google-Speicherplatz zu reservieren und von Azure aus darauf zuzugreifen oder es in etwas wie HDInsight oder Data Lake zu verschieben. Ich muss die Daten über mehrere verschiedene Datenspeicher, SQL Azure, Blob und Tabellenspeicher verbinden. Ich habe auch Apache Drill und Presto als mögliche Lösung zur Vereinheitlichung des Datenzugriffs untersucht. Ich wollte nur sehen, ob irgendjemand da draußen mit dem gleichen Thema umgegangen ist und irgendwelche Erfahrungen zu teilen hat. Vielen Dank!Google Analytics-Daten in Azure

+0

Dies passt am besten zu @ https://groups.google.com/group/presto-users –

Antwort

0

Vorwort

ich Erfahrung nicht mit Presto haben, so kann ich kommentieren nur mit Drill über die Durchführbarkeit, dies zu tun. Auch habe ich Azure-Dienste nicht benutzt, also ist mein Rat theoretisch.

Drill Speicher Plugins

Drill ermöglicht es Ihnen, alle SQL-Abfragen durchführen Sie auf Daten wollen aus verschiedenen Quellen stammen, vorausgesetzt, dass jede Datenquelle einen Speicher Plugin hat. Ein Speicher-Plug-in ist einfach ein Code in Drill, mit dem Sie eine Schnittstelle zu einer Datenquelle herstellen können. Da Sie sich mit der Durchführung von Abfragen in 3 Datenquellen befassen, müssen wir feststellen, ob jede dieser 3 Datenquellen über ein Speicher-Plugin verfügt.

SQL Azure

Ich gehe davon aus SQL Azure einen JDBC-Treiber für Java hat. Wenn dies der Fall ist, kann Drill für die Verwendung von SQL Azure konfiguriert werden, indem Sie these instructions folgen.

Azure Blob

Azure Blob Storage hat eine Implementierung des Hadoop-Dateisystem api, die Bohrer verwendet, um Daten von Dateisystemen zu lesen. So könnten Sie theoretisch den hadoop-azure jar und seine Abhängigkeiten https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-azure/2.7.0 zu Drills Klassenpfad hinzufügen und das DFS-Speicher-Plug-In von Drill konfigurieren, um es zu verwenden.

Zusätzlich müssen die Daten in Azure Blob in einem unterstützten Dateiformat wie JSON, Parkett, CSV oder Hadoop-Sequenzdateien gespeichert werden.

Azure Table

Dies sieht aus wie Microsofts benutzerdefinierte NoSQL-Datenbank. Momentan unterstützt Drill das nicht.

Fazit

Mit ein wenig Arbeit, die Sie Drill nutzen könnten Daten sowohl Azure SQL und Blob, aber nicht Azure Tabelle abzufragen.