2017-02-10 3 views
-1

In unserer Firma verwenden wir HDFS. Bisher funktioniert alles und wir können Daten mithilfe von Abfragen extrahieren.Statistik mit HDFS-Daten

In der Vergangenheit hatte ich viel mit Projekt R gearbeitet. Es war immer toll für meine Analysen. Also überprüfte ich Project R und die Unterstützung von HDFS (rbase, rhdfs, ...).

Dennoch bin ich ein wenig verwirrt, da ich Tonnen von Tutorials gefunden habe, wo sie Analysen mit einfachen Daten in CSV-Dateien gespeichert haben. Versteh mich nicht falsch. Das ist in Ordnung, aber ich möchte fragen, ob es eine Möglichkeit gibt, Abfragen zu schreiben, die Daten zu extrahieren und einige Statistiken in einem Lauf zu machen.

Oder mit anderen Worten: Wenn wir über Statistiken für Daten sprechen, die in HDFS gespeichert sind, wie gehen Sie damit um?

Vielen Dank und hoffentlich können einige von Ihnen mir helfen, Vor- und Nachteile für meine Frage zu sehen.

Alles Gute - Peter

Antwort

0

Sie vielleicht gefallen Apache Hive und Apache Spark zu überprüfen. Obwohl es viele andere Möglichkeiten gibt, bin ich mir nicht sicher, ob Sie fragen, wie Sie an den Daten von hdfs arbeiten, wenn die Daten nicht in einer Datei an Sie weitergegeben werden.