2016-08-22 2 views
8

Ich werte mehrere große Datentools aus. Einer von ihnen ist natürlich Impala.
Ich möchte den Impala-Cluster starten, indem ich Prozesse auf den Clusterknoten manuell starte. Wie ich gerade für Spark, H2O, Presto und Dask mache, möchte ich Binärdateien holen, auf Knoten kopieren, Konfigurationen bearbeiten und Dienste auf Knoten von Shell aus starten. Dies funktioniert sehr gut, es ist einfach zu aktualisieren und ich kann bei Bedarf leicht zu größeren/verschiedenen Clustern wechseln. Leider kann ich keine Ressourcen finden, um die erforderlichen Dienste (Catalog Server, StateStore und Daemons) von Shell aus starten zu können.
Ich nehme an, es ist offensichtliche Aufgabe, aber kann einfach kein passendes Beispiel finden, um zu folgen, so ist meine Frage, wie kann ich Impala-Cluster von der Shell starten, die Impala-Binärdateien aufruft?Laufender Impalacluster von tragbaren Binärdateien

+1

Was ist mit dem * "Starten Impala" * Abschnitt auf der offiziellen Seite Apache? http://www.cloudera.com/documentation/enterprise/latest/topics/impala_processes.html#starting_via_cmdline –

+0

Haftungsausschluss: Ich habe nie versucht, eine eigenständige Installation oder eine manuelle Inbetriebnahme zu versuchen. Cloudera Manager macht eine ordentliche Arbeit, gut, managen die ganze Sache * (und automatisch die Dämonen neu starten, wenn sie abstürzen - was eine lustige Erfahrung an sich ist, hatte ich nicht die schreckliche Unix 'SEGV' Schuld in etwa 20 Jahren gesehen !) * –

+0

@SamsonScharfrichter Das scheint nicht mit meiner Frage zu tun zu haben. Wenn es nicht klar ist, kann ich Beispiele hinzufügen, wie ich Spark, H2O, Presto oder Dask benutze. Nur ein Shell-Befehl gegen heruntergeladene und entpackte Binärdateien. Keine Installation oder Dienste auf Betriebssystemebene.Ich stimme einem * anständigen Job von Cloudera Manager * zu, aber ich muss verschiedene Versionen auf verschiedenen Umgebungen ausführen, Neuinstallation von Impala/CDH, Upgrades, Downgrade scheint kein Weg zu sein. – jangorecki

Antwort

2

.... Ich möchte Impala-Cluster starten, indem ich Prozesse auf den Clusterknoten manuell starte ... Wie kann ich Impala-Cluster von der Shell starten, die Impala-Binärdateien aufruft?

Ich denke, das ist das, was Sie suchen: http://www.cloudera.com/documentation/enterprise/5-5-x/topics/impala_processes.html#starting_via_cmdline

Update 1:

Sie dürfen nur die erforderlichen Informationen über diesen Link auswählen möchten: http://doc.mapr.com/plugins/servlet/mobile#content/view/28869628

Es hat Schritte Impala von Github bauen, um auf Mapr zu laufen.

Update 2:

Um Impala zu bauen, prüfen diese Links: https://github.com/cloudera/Impala/wiki/Build-prerequisites https://github.com/cloudera/Impala/wiki/How-to-build-Impala https://cwiki.apache.org/confluence/display/IMPALA/Building+Impala

Update 3:

Für Experten Vorschläge auf Portabilität nehmen Sie bitte Kontakt mit:

Impala-Entwickler: [email protected] ator.apache.org

Entnommen http://impala.apache.org/community.html

Vorerst können Sie die Binärdateien für die leicht verfügbaren Linux-Produktionsumgebung bauen betrachten zu.

Einige weitere nützliche Links für Ihre Situation:

https://cwiki.apache.org/confluence/display/IMPALA/Tips+for+Faster+Impala+Builds https://cwiki.apache.org/confluence/display/IMPALA/Building+native-toolchain+from+scratch+and+using+with+Impala

+0

Danke Marco, jetzt ist es eine aufschlussreiche Antwort, aber nicht wirklich praktisch. Besteht die Möglichkeit, dass Impala aus der Quelle ihre Leistung beeinträchtigt? Der springende Punkt ist, Impala in den "leicht" reproduzierbaren Benchmark [db-benchmark] (https://github.com/h2oai/db-benchmark) einzufügen, so dass sowohl die Installation von CDH als auch das Erstellen von Quellen die Portabilität, die ich bin, nicht berücksichtigen Auf der Suche nach. – jangorecki

+1

@jangorecki: Obwohl ich persönlich noch nicht versucht habe, aus der Quelle zu bauen, glaube ich nicht, dass dies Auswirkungen auf die Performance haben wird (da sie hauptsächlich mit der Clusterkonfiguration, den Ressourcen und der Auslastung zusammenhängt). Ich denke, die universelle Portabilität, die Sie erreichen wollen, ist aufgrund der Anwesenheit von C++ - Komponenten, die maschinennahe Compiler zum Erstellen von entsprechenden Binärdateien erfordern würden, unpraktisch. – Marco99

+1

@jangorecki: Hast du zufällig irgendwelche anderen Beiträge zum Erreichen der universellen Portabilität? Bitte teilen Sie, wenn Sie es getan haben. – Marco99