Wird empfohlen, auf allen Rechnern eines Clusters dieselben Ressourcen (CPU und RAM) zu verwenden?Empfehlungen für Cluster-Knoten Ressourcen auf Hadoop?
Antwort
Die Infrastrukturkonfiguration Ihres Clusters richtet sich nach dem Geschäftsfall, für den Sie den Cluster erstellen, was wiederum die Anforderungen an die Datenverarbeitung widerspiegelt, die der Cluster erfüllen muss, um das Geschäftsergebnis zu erzielen. Im Allgemeinen wurde das Hadoop-System ursprünglich mit der Vorstellung entworfen, dass es Maschinen mit heterogener Konfiguration in einem Cluster geben würde. (Die Serverhersteller verfügen jetzt über Maschinen, die für die Hadoop-Workload optimiert sind, mit einigen Schwankungen der Datenträgergröße zwischen Mastern und Slaves).
Um Ihre Fragen speziell zu adressieren, habe ich auf einigen Seiten Cluster mit bis zu 50 Knoten mit genau der gleichen Konfiguration für Master und Slaves gesehen (was ich dachte, war ein bisschen eine Übertötung). Leise oft entscheiden Architekturentscheidungen nicht immer über Beschaffungsentscheidungen.
Die folgenden Verbindungen von 3 großen Distributionsanbieter Hadoop wäre ein guter Ausgangspunkt sein, mehr auf Cluster-Design zu verstehen und ortsspezifische Parameter gelten (dh Datenverarbeitungsanforderungen, Datenwachstum, Vorratsdatenspeicherung, replication..etc):
Hortonworks:
https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.5/bk_cluster-planning/bk_cluster-planning.pdf
Cloudera:
https://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/
MAPR:
- 1. Empfehlungen für .NET-Komprimierungsbibliothek
- 2. Empfehlungen für einfaches AJAX?
- 3. Empfehlungen für Java + OpenPGP?
- 4. Empfehlungen für Python Web GUI
- 5. CMS-Empfehlungen für CRM-System
- 6. Empfehlungen für den Frühling SEO
- 7. Wahrscheinlichkeit auf Azur Empfehlungen api
- 8. Empfehlungen für virtuelle Tastatur (JavaScript)
- 9. Hadoop oder Hadoop Streaming für MapReduce auf AWS
- 10. Java-Code über Anwendungsserver-Clusterknoten aufrufen
- 11. Empfehlungen für einen erfahrenen Programmierer neu in JavaScript?
- 12. Empfehlungen für Feedback- und Hinweis auf Perl Regex
- 13. Empfehlungen für eine Webanwendung mit Laravel
- 14. com.sun.faces.ClientStateSavingPassword - Empfehlungen für das tatsächliche Passwort?
- 15. Empfehlungen für ein billiges serielles Gerät
- 16. Empfehlungen für Soap Webservice Testing Apps
- 17. Empfehlungen für maximale Dateigröße Upload in IIS
- 18. Vim: Empfehlungen für Vimball-Plugins in Pathogen
- 19. Empfehlungen für einen bissigen Ubuntu + Rails Server
- 20. Modellierung PROCs für SAS auf Hadoop
- 21. Hardware-Anforderung für Hadoop-Installation auf Laptop
- 22. Empfehlungen für eine gute PHP HTTP-Klasse
- 23. Empfehlungen für die Datenbank mit R
- 24. Hardware-Empfehlungen für Ubuntu XEN-Server
- 25. ASP.NET-Ressourcen für einen C# -Programmierer
- 26. Empfehlungen für Embedded + Echtzeit-Entwicklung Training
- 27. Empfehlungen für einen Java-HTML-Parser/Editor
- 28. Android Studio „Empfehlungen“ für virtuelle Gerätekonfiguration
- 29. Empfehlungen für den Umgang mit Quellcode Inhouse
- 30. Empfehlungen für Spring + JSP-URL-Gebäude
Danke @ Kfactor21 für Ihre interessante Antwort. Wir haben einige Probleme bei der Verarbeitung von Garn (von Zeit zu Zeit, ein Job stoppt die ganze Anwendung von Yarn), und wir denken, dass dies durch die Unterschiede in den Ressourcen verursacht wird, die von einigen Knoten zu anderen kommen. Auch wir verwenden die RM und NM auf der gleichen Maschine, glauben Sie, dass das der Grund für dieses Problem sein könnte, da die betreffenden Jobs in diesem Knoten ausgeführt wurden? –
Hallo @AymanAnikad, ich würde dir raten, eine neue Frage mit dem Problem zu öffnen, mit dem du konfrontiert wirst. Du hast eine bessere Chance, Hilfe von der Community zu bekommen. Ohne Informationen zu Ihrem Cluster ist es schwierig zu sagen, was das Problem sein könnte. Bitte geben Sie mindestens folgende in Ihrer Frage an: Umgebungsdetails (Hadoop Distribution, Infrastrukturdetails (MasterNodes/Datanodes und entsprechende CPU/RAM/DISK Details)/YARN Speicherkonfigurationen, Containergrößen, Name Node Heap size), HDFS Blockgröße . Job-Protokolle von Ressourcenmanager, YARN-Protokoll, mindestens Abschnitte um den Fehler. – Kfactor21
Es ist in Ordnung. Ich werde das machen. Danke für deine Empfehlungen :) –