In unserer Firma verwenden wir HDFS. Bisher funktioniert alles und wir können Daten mithilfe von Abfragen extrahieren.Statistik mit HDFS-Daten
In der Vergangenheit hatte ich viel mit Projekt R gearbeitet. Es war immer toll für meine Analysen. Also überprüfte ich Project R und die Unterstützung von HDFS (rbase, rhdfs, ...).
Dennoch bin ich ein wenig verwirrt, da ich Tonnen von Tutorials gefunden habe, wo sie Analysen mit einfachen Daten in CSV-Dateien gespeichert haben. Versteh mich nicht falsch. Das ist in Ordnung, aber ich möchte fragen, ob es eine Möglichkeit gibt, Abfragen zu schreiben, die Daten zu extrahieren und einige Statistiken in einem Lauf zu machen.
Oder mit anderen Worten: Wenn wir über Statistiken für Daten sprechen, die in HDFS gespeichert sind, wie gehen Sie damit um?
Vielen Dank und hoffentlich können einige von Ihnen mir helfen, Vor- und Nachteile für meine Frage zu sehen.
Alles Gute - Peter