haben eine stochastische Simulation in Java geschrieben, die Daten von einigen CSV-Dateien auf der Festplatte (insgesamt etwa 100 MB) lädt und Ergebnisse in eine andere Ausgabedatei schreibt (nicht viel Daten, nur ein Boolean und ein paar Zahlen). Es gibt auch eine Parameterdatei und für verschiedene Parameter wird erwartet, dass sich die Verteilung der Simulationsausgaben ändert. Um die richtigen/besten Eingabeparameter zu bestimmen, muss ich mehrere Simulationen über mehrere Eingabeparameterkonfigurationen hinweg ausführen und die Verteilungen der Ausgaben in jeder Gruppe betrachten. Jede Simulation dauert je nach Parameter und Zufälligkeit 0,1-10 min.Ist Hadoop richtig zum Ausführen meiner Simulationen?
Ich habe gelesen über Hadoop und frage mich, ob es mir helfen kann, viele Simulationen zu laufen; Ich habe vielleicht in naher Zukunft Zugriff auf ungefähr 8 vernetzte Desktop-Maschinen. Wenn ich richtig verstehe, könnte die Kartenfunktion meine Simulation ausführen und das Ergebnis ausspucken, und der Reduzierer könnte die Identität sein.
Die Sache, um die ich mir Sorgen mache, ist HDFS, das anscheinend für große Dateien gedacht ist, nicht für ein paar kleine CSV-Dateien (von denen keine die empfohlene Mindestblockgröße von 64 MB ausmachen würde). Darüber hinaus benötigt jede Simulation nur eine identische Kopie jeder der CSV-Dateien.
Ist Hadoop das falsche Werkzeug für mich?
Ich denke, es ist mehr wie, sollten Sie keine Tabellenkalkulation für Datenbanken verwenden. Sicher können Sie * eine Tabelle als Datenbank verwenden, und viele Leute tun das, aber es kann (oder auch nicht) zu Problemen für Sie führen, weil es nicht stimmt zwischen dem, wozu es gedacht war und dem, wofür Sie es verwenden. Das heißt, einige Leute haben keinen Zugang zu Datenbanken, daher ist eine Tabellenkalkulation die beste Option für sie. –
Das ist eine wirklich gute Analogie Emil. Sehr guter Punkt. Aber wenn Hadoop für Simulationen verwendet wird, ist das wirklich so, als würde man Zahlen in einer Datenbank speichern. Man könnte sagen: "Speichern von Zahlenspalten? Das ist ein Tabellenkalkulationsproblem! Tabellenkalkulationen wurden speziell für Zahlen entwickelt!" Aber dann, wenn Sie 1000mm Zahlen haben ... uh oh, es ist ein Datenbankproblem. Aber das Speichern von 1000-mm-Zahlen ist NICHT, wofür Datenbanken gebaut wurden. DBs speichern Text, Blobs, etc. Nur Zahlen speichern ist nicht das, wofür sie verwendet werden sollen! ;) –
Könntest du bitte den Link zu dem Video aktualisieren, wenn es irgendwo noch verfügbar ist? – Stefan