2017-07-19 4 views

Antwort

0

Die Infrastrukturkonfiguration Ihres Clusters richtet sich nach dem Geschäftsfall, für den Sie den Cluster erstellen, was wiederum die Anforderungen an die Datenverarbeitung widerspiegelt, die der Cluster erfüllen muss, um das Geschäftsergebnis zu erzielen. Im Allgemeinen wurde das Hadoop-System ursprünglich mit der Vorstellung entworfen, dass es Maschinen mit heterogener Konfiguration in einem Cluster geben würde. (Die Serverhersteller verfügen jetzt über Maschinen, die für die Hadoop-Workload optimiert sind, mit einigen Schwankungen der Datenträgergröße zwischen Mastern und Slaves).

Um Ihre Fragen speziell zu adressieren, habe ich auf einigen Seiten Cluster mit bis zu 50 Knoten mit genau der gleichen Konfiguration für Master und Slaves gesehen (was ich dachte, war ein bisschen eine Übertötung). Leise oft entscheiden Architekturentscheidungen nicht immer über Beschaffungsentscheidungen.

Die folgenden Verbindungen von 3 großen Distributionsanbieter Hadoop wäre ein guter Ausgangspunkt sein, mehr auf Cluster-Design zu verstehen und ortsspezifische Parameter gelten (dh Datenverarbeitungsanforderungen, Datenwachstum, Vorratsdatenspeicherung, replication..etc):

Hortonworks:

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.5/bk_cluster-planning/bk_cluster-planning.pdf

Cloudera:

https://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/

MAPR:

http://doc.mapr.com/display/MapR/Planning+Cluster+Hardware

+0

Danke @ Kfactor21 für Ihre interessante Antwort. Wir haben einige Probleme bei der Verarbeitung von Garn (von Zeit zu Zeit, ein Job stoppt die ganze Anwendung von Yarn), und wir denken, dass dies durch die Unterschiede in den Ressourcen verursacht wird, die von einigen Knoten zu anderen kommen. Auch wir verwenden die RM und NM auf der gleichen Maschine, glauben Sie, dass das der Grund für dieses Problem sein könnte, da die betreffenden Jobs in diesem Knoten ausgeführt wurden? –

+0

Hallo @AymanAnikad, ich würde dir raten, eine neue Frage mit dem Problem zu öffnen, mit dem du konfrontiert wirst. Du hast eine bessere Chance, Hilfe von der Community zu bekommen. Ohne Informationen zu Ihrem Cluster ist es schwierig zu sagen, was das Problem sein könnte. Bitte geben Sie mindestens folgende in Ihrer Frage an: Umgebungsdetails (Hadoop Distribution, Infrastrukturdetails (MasterNodes/Datanodes und entsprechende CPU/RAM/DISK Details)/YARN Speicherkonfigurationen, Containergrößen, Name Node Heap size), HDFS Blockgröße . Job-Protokolle von Ressourcenmanager, YARN-Protokoll, mindestens Abschnitte um den Fehler. – Kfactor21

+0

Es ist in Ordnung. Ich werde das machen. Danke für deine Empfehlungen :) –

Verwandte Themen