2016-05-11 3 views
0

I Option getrennte Datenknoten für verschiedene Projekte haben will verwalten (nicht will, Datenknoten zwischen zwei Projekten teilen)Wie zwei Cluster in mit einem Cloudera Manager mit gemeinsamem NN & GARN Server

ich sehen kann Cloudera Manager, um zwei verschiedene Cluster mit einem gemeinsamen Cloudera-Manager zu haben. Also kann ich separate Cluster von nur Datenknoten haben und HDFS- und Yarn-Manager mit früheren Clustern teilen. Yarn/HDFS-Master-Dienste müssen zwei separate fsimage/edit-Logs und Resource Manager haben (ich vermute, dass die Server-Konfiguration auf Meine Master-Knoten mit neuen Cluster-Daten-Knoten und Client-Prozessen auf diesem Knoten gemeinsam genutzt wird).

Ist es möglich? Hat das schon mal jemand gemacht? Wie hoch ist die Leistung? ich dieses Dokument beziehen mich -> [http://www.cloudera.com/documentation/archive/manager/4-x/4-5-1/Cloudera-Manager-Enterprise-Edition-User-Guide/cmeeug_topic_6.html][ cloudera Dokumentation für Multi-Cluster ein CM mit]

Auch kann setzten wir eine Regel für HDFS speichern/nur bestimmten Satz von Datenknoten für bestimmte Menge von Daten/Verzeichnis so Kann diese Trennung erreicht werden?

Vielen Dank im Voraus.

Antwort

0

Das Dokument, auf das Sie verweisen, ist die Verwaltung mehrerer unabhängiger Cluster mit einer Cloudera-Manager-Installation. Was du tun willst, glaube ich nicht, ist möglich. Es ist nicht so, wie Hadoop funktioniert. Multi-Tenant auf Hadoop wird in den nächsten 5.7 und 5.8 Releases von CM und CDH viel einfacher. Wenn Sie es geschafft haben, und ich bin mir nicht sicher, ob Sie das könnten, wäre die Leistung ziemlich schlecht.

Der typische Denkprozess besteht darin, Ihre Dämonen (Herr, Bienenstock, Impala) so nah wie möglich an die Daten zu bringen. Wenn Sie Bedenken haben, verschiedene Daten für verschiedene Clients zu haben, dann können Sie das leicht lösen, ohne Cluster mit Kontingenten und guter Sicherheit in Form von Kerberos und Sentry zu kombinieren. Welche Dienstleistungen interessieren Sie am meisten? Garn selbst ist nur ein Ressourcenmanager, also schätze ich, dass Sie gerade bei MapReduce und HDFS suchen. Planen Sie eine Analyse? Sie würden Bienenstock oder Impala dafür verwenden wollen.

+0

Planung, nur MapReduce und Spark zu verwenden. Ich möchte nur bestehende Yarn/HDFS NN-Dienste für meine neuen hinzugefügten Datenknoten verwenden, so dass wir nicht zusätzlich in neue 2-3 Serverknoten (NN, SNN, YARN RM, Edge-Knoten usw.) investieren müssen Unterstützungsaktivität wird glatt sein. Bestehende Projekte nutzen alle Ressourcen RAM/CPU vollständig. Es sollte nur überprüft werden, ob es möglich ist, Lasten mit bereits überladenen Cluster-Datenknoten zu vermeiden (CPU- und RAM-Auslastung sind 90% bei bestehenden Datenknoten, daher ist ein separater Verarbeitungsfluss sinnvoll wenn möglich mit separaten DNs). – Yogesh

+0

Können wir auch eine Regel für HDFS festlegen, um bestimmte Datenknoten für bestimmte Daten/Verzeichnisse nur zu speichern/zu verwenden, damit eine Trennung erreicht werden kann? – Yogesh

Verwandte Themen