Ich werde eine große Menge an Dateien strukturiert werden wie folgt verwendet:Spark-Partitionierung/cluster Durchsetzung
/day/hour-min.txt.gz
mit insgesamt 14 Tage. Ich werde einen Cluster von 90 Knoten/Arbeitern verwenden.
Ich lese alles mit wholeTextFiles()
, da es die einzige Möglichkeit ist, die es mir erlaubt, die Daten entsprechend zu teilen. Alle Berechnungen werden pro Minute durchgeführt (also grundsätzlich pro Datei) und einige wenige Schritte am Ende. Es gibt ungefähr 20.000 Dateien; Wie man sie effizient partitioniert? Soll ich Funken entscheiden lassen?
Idealerweise denke ich, jeder Knoten sollte ganze Dateien erhalten; macht Funken das standardmäßig? Kann ich es durchsetzen? Wie?
Wo befinden sich Ihre Eingabedateien? HDFS/S3/..? –
HDFS –
Dimebag