2016-12-08 2 views
0

Wir wissen, dass die Leistung von Hadoop durch Hinzufügen weiterer Datenknoten erhöht werden kann. Meine Frage ist: Wenn wir die Daten nur abrufen wollen, ohne sie zu verarbeiten oder zu analysieren, ist es hilfreich, weitere Datenknoten hinzuzufügen? oder es wird die Leistung überhaupt nicht erhöhen, weil wir Operationen nur ohne Berechnungen abrufen oder Jobs reduzieren.Hadoop-Leistung Beim Abrufen von Nur Daten

Antwort

0

Ich werde versuchen, in Teilen zu beantworten:

  1. Wenn Sie nur Informationen aus einem Hadoop-Cluster oder HDFS abrufen dann es Cat Befehl in Linux ähnlich ist, das heißt, nur die Daten zu lesen nicht verarbeiten.
  2. Wenn Sie möchten, dass einige Berechnungen wie SUM, AVG oder andere Aggregat Funktionen auf Ihre Daten kommt dann kommt das Konzept der REDUCE, daher Karte reduzieren kommt ins Bild.
  3. Also Hadoop ist nützlich oder würdig, wenn Ihre Daten riesig sind und Sie Berechnungen auch tun. Ich denke, sie ist keine Leistung Vorteile während Lesen einer kleinen Menge von Daten in HDFS als Lesen einer großen Menge von Daten in HDFS (denken Sie einfach wie Sie Ihre Daten in RDBMS regelmäßig speichern und Sie nur Abfragen * Anweisungen auf täglicher Basis abfragen), , aber wenn Ihre Daten exponentiell anwachsen und Sie Berechnungen ausführen möchten, dauert die Ausführung Ihrer RDBMS-Abfrage einige Zeit.
  4. Für Karte zu reduzieren, um effizient auf große Datenmengen zu arbeiten, müssen Sie haben eine gute Menge an Knoten und Rechenleistung, abhängig von Ihrem Anwendungsfall.
Verwandte Themen