ich für eine Disk-intensive Hadoop Anwendung gesucht, die E/A-Aktivität in Hadoop zu testen, aber ich konnte keine solche Anwendung finden, die über die Datenträgerauslastung gehalten, etwa 50% oder einig eine solche Anwendung, die tatsächlich die Festplatte beschäftigt hält. Ich habe versucht Randomwriter, aber das ist überraschend nicht Festplatte I/O intensiv.in eine Datei in HDFS in Hadoop Schreiben
Also schrieb ich ein kleines Programm, eine Datei in Mapper zu erstellen und einen Text hinein zu schreiben. Diese Anwendung funktioniert gut, aber die Verwendung ist nur im Master-Knoten hoch, der auch Name-Knoten, Job-Tracker und einer der Slaves ist. Die Plattenauslastung ist in den anderen Task-Trackern NIL oder vernachlässigbar. Ich kann nicht verstehen, warum Festplatten-I/O in Task-Tracker so niedrig ist. Könnte jemand bitte mich in die richtige Richtung stoßen, wenn ich etwas falsch mache? Danke im Voraus.
Hier ist mein Beispielcode-Segment, das ich in WordCount.java Datei geschrieben UTF String in ein File-
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path outFile;
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
outFile = new Path("./dummy"+ context.getTaskAttemptID());
FSDataOutputStream out = fs.create(outFile);
out.writeUTF("helloworld");
out.close();
fs.delete(outFile);
}
Für E/A-Benchmarking können Sie auch TestDFSIO ansehen: http://answers.oreilly.com/topic/460-how-to-benchmark-a-hadoop-cluster/ –
@LorandBendig Ich tat, die Die höchste Festplattenauslastung für TestDFSIO, die ich für meinen Cluster mit 14 Knoten gefunden habe, beträgt nur 2,4% und der Durchschnitt beträgt etwa 0,07%. Ich vermasse die Festplattenauslastung mit dem Befehl _iostat_, der Job lief ungefähr 300 Sekunden lang. Gibt es etwas wirklich Dummes, das ich mache und nicht weiß? –
Sie können mit den Parametern spielen (Anzahl der Dateien, Größe), aber ich denke, Sie haben es bereits getan. Es gibt noch weitere Tests, die Sie versuchen können, ist hier sehr gut beschrieben: http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort -testdfsio-nnbench-mrbench/ –