Ich bin neu in Scala, und ich muss Scala und Sparks SQL, Mllib und GraphX verwenden, um einige Analysen an riesigen Datenmengen durchzuführen. Die Analysen ich tun möchte, sind:Datenanalyse Scala on Spark
- Kundenlebenszyklus Wert (CLV)
- Zentralität Maßnahmen (Grad, Eigenvektor, kantenBetween, Nähe) Die Daten werden in einer CSV-Datei (60GB (3 Jahre transnationale Daten)) im Hadoop-Cluster.
Meine Frage ist über den optimalen Ansatz für den Zugriff auf die Daten und die Durchführung der oben genannten Berechnungen?
- Sollte ich die Daten aus der CSV-Datei in den Datenrahmen laden und den Datenrahmen bearbeiten? oder
- Sollte ich die Daten aus der CSV-Datei laden und in RDD und konvertieren, dann arbeiten auf der RDD? oder
- Gibt es einen anderen Ansatz, um auf die Daten zuzugreifen und die Analysen durchzuführen?
Vielen Dank im Voraus für Ihre Hilfe ..
Die etwas typsichere Version von Datenrahmen sind Datensätze, die aufgrund der besseren Datenkomprimierung die empfohlene API sind. Für das typsichere Problem gibt es https://github.com/adelbertc/frameless/ – Reactormonk