Ich versuche, eine große Menge von Daten (einige tausend Dateien, die bis zu 19 TB hinzufügen) zu meinem Hadoop-Cluster zu kopieren. Ich bin ein Bash-Schleife über Subsets der Dateien läuft und die mehr Schleifen Ich betreibe das langsamer alles KopienHadoop mehrfache Eingabe-Befehle verlangsamen
for filename in /path/to/my/data/*.csv;
do cat $filename | ssh [email protected] "hadoop fs -put - /path/to/new/data/$filename";
done
Das gleiche Problem tritt auf, wenn ich Daten um auf dem Cluster zu bewegen, so dass ich glaube nicht, Es kopiert über das Netzwerk, das das Problem verursacht.
Frage: Kann Hadoop mehrere gleichzeitige put
Befehle behandeln? Ist das, was ich sehe, zu erwarten?
Bearbeiten: Cluster-Spezifikationen: 9 Server, 4 Festplatten pro Server, 24 TB auf jedem Knoten verfügbar. Ungefähr ein halbes Dutzend Befehle.
Wie viele Server und Festplatten im Hadoop-Cluster haben Sie? Wie viele parallele Put-Befehle laufen? – gudok
9 Server, 4 Festplatten pro Server, 24 TB auf jedem Knoten verfügbar. Etwa ein halbes Dutzend 'Put'-Befehle. – Sal