2017-11-18 1 views
0

Wir haben einen Cloudera-Cluster mit einer h2o-Instanz, obwohl es scheint, dass es von h2o.jar abläuft (was ich verstehe - bitte korrigieren Sie mich, wenn es falsch ist) ist das Standalone h2o. Ich kann eine Verbindung herstellen, aber es lädt keine Dateien von unserem HDFS. (All dies kann ich über 'ps' auf Randknoten sehenH2O + HDFS (Cloudera)

Also begann ich eine Instanz mit h2odriver.jar

java -jar /path/to/h2odriver.jar -nodes 2 -mapperXmx 5g -output /my/hdfs/dir

ich mehrere Ausgabe/Callback-Adressen erhalten.

[Possible callback IP address: 10.96.243.46:33728] [Possible callback IP address: 127.0.0.1] Using mapper->driver callback IP address and port: 10.96.243.46:33728

So feuern ich python und versuchen, eine Verbindung (gleiche passiert, wenn ich 10.96.243.46 verwenden):

>>>h2o.connection(ip='127.0.0.1', port='33728')

und bekommen

'Connecting to H2O server at http://127.0.0.1:33728..... failed. 
H2OConnectionError: COuld not estalich link to the H2O cloud http://127.0.0.1:33728 after 5 retries 
... 
Failed to establish a new connection:[Errno 111] Connection refused',))` 

Sache ist auf meinem Bildschirm mit dem H2O jar/java Job kann ich sehen:

`MapperToDriverMessage: Read invalid type (G) from socket, ignoring... 
MapperToDriverMessage: read: Unknown Type ` 

Ich kann nicht herausfinden, wie H 2 O im Cluster-Modus zu starten und haben es greift auf unser hdfs-system zu oder verbindet es sogar. Ich kann eine Verbindung zur h2o.jar-Version herstellen, sieht aber keine hdfs (es kann das Dateisystem des edgenode sehen). Was ist der richtige Weg, um H2O zu starten, damit es das angeschlossene HDFS-System sehen kann (Wir betreiben Cloudera 5.7 in einer Unternehmensumgebung, Python ist 3.6, H2O ist 3.10.0.6 und ich weiß, wir haben eine Tonne von Firewalls/Sicherheit-- ich glaube, wir sind Setup über LDAP

Antwort

1

Sie sind richtig, dass h2o.jar soll die Standalone-Version von H2O sein, die nicht für den Anschluss an HDFS gemeint ist.

die entsprechende h2odriver.jar für Ihre hadoop Verteilung über den Weg

Die richtige Anleitung für Anfänger finden Sie hier:


Es sagt der folgende Befehl ausgeführt werden soll:

hadoop jar h2odriver.jar -nodes 1 -mapperXmx 6g -output hdfsOutputDirName 

[Beachten Sie, dass dies "hadoop jar" ist, nicht "java-jar" als wri tten in der Frage. ]

Sie sollten Ausgabe wie folgt sehen:

Determining driver host interface for mapper->driver callback... 
[Possible callback IP address: 172.16.2.181] 
[Possible callback IP address: 127.0.0.1] 
... 
Waiting for H2O cluster to come up... 
H2O node 172.16.2.188:54321 requested flatfile 
Sending flatfiles to nodes... 
[Sending flatfile to node 172.16.2.188:54321] 
H2O node 172.16.2.188:54321 reports H2O cluster size 1 
H2O cluster (1 nodes) is up 
(Note: Use the -disown option to exit the driver after cluster formation) 

Open H2O Flow in your web browser: http://172.16.2.188:54321 

(Press Ctrl-C to kill the cluster) 
Blocking until the H2O cluster shuts down... 

Ihren Web-Browser auf dem Platz zeigen Dann sagt, wo es zu "Open H2O Fluss in Ihrem Web-Browser".

(Die anderen Adressen in der Ausgabe sind Diagnosen und nicht für Endbenutzer.)

In diesem Fall würde die Python-Verbindung Befehl sein:

h2o.connect(ip = '172.16.2.188', port = 54321) 


ich in einem Web-Browser Fluss empfehlen, geht, starten Sie eine Datei importieren von „hdfs eingeben: // "und sehen, ob Autovervollständigung funktioniert. Wenn dies der Fall ist, funktioniert Ihre HDFS-Verbindung.

+0

Umstellung auf "Hadoop-Glas" hat den Trick gemacht. Ich habe nie gesehen, dass der Cluster auftaucht (der "anfragende Flatfile-Teil"). Mit diesem Switch ist der Server aktiv und ich kann mich verbinden. Ich konnte nicht zu Flow, da die Adresse Firewall blockiert ist (ich vermute), aber konnte durch Python verbinden und bestätigen, dass ich über hdfs importieren kann. --edit, nachdem ich den 'Namen' auf dem Server für den Fluss herausgefunden habe, konnte ich durch I-Firewall verbinden (Adresse funktioniert nicht - aber wieder Firewall, nicht h2o). – RDS

Verwandte Themen