Wir haben einen Cloudera-Cluster mit einer h2o-Instanz, obwohl es scheint, dass es von h2o.jar abläuft (was ich verstehe - bitte korrigieren Sie mich, wenn es falsch ist) ist das Standalone h2o. Ich kann eine Verbindung herstellen, aber es lädt keine Dateien von unserem HDFS. (All dies kann ich über 'ps' auf Randknoten sehenH2O + HDFS (Cloudera)
Also begann ich eine Instanz mit h2odriver.jar
java -jar /path/to/h2odriver.jar -nodes 2 -mapperXmx 5g -output /my/hdfs/dir
ich mehrere Ausgabe/Callback-Adressen erhalten.
[Possible callback IP address: 10.96.243.46:33728] [Possible callback IP address: 127.0.0.1] Using mapper->driver callback IP address and port: 10.96.243.46:33728
So feuern ich python und versuchen, eine Verbindung (gleiche passiert, wenn ich 10.96.243.46 verwenden):
>>>h2o.connection(ip='127.0.0.1', port='33728')
und bekommen
'Connecting to H2O server at http://127.0.0.1:33728..... failed.
H2OConnectionError: COuld not estalich link to the H2O cloud http://127.0.0.1:33728 after 5 retries
...
Failed to establish a new connection:[Errno 111] Connection refused',))`
Sache ist auf meinem Bildschirm mit dem H2O jar/java Job kann ich sehen:
`MapperToDriverMessage: Read invalid type (G) from socket, ignoring...
MapperToDriverMessage: read: Unknown Type `
Ich kann nicht herausfinden, wie H 2 O im Cluster-Modus zu starten und haben es greift auf unser hdfs-system zu oder verbindet es sogar. Ich kann eine Verbindung zur h2o.jar-Version herstellen, sieht aber keine hdfs (es kann das Dateisystem des edgenode sehen). Was ist der richtige Weg, um H2O zu starten, damit es das angeschlossene HDFS-System sehen kann (Wir betreiben Cloudera 5.7 in einer Unternehmensumgebung, Python ist 3.6, H2O ist 3.10.0.6 und ich weiß, wir haben eine Tonne von Firewalls/Sicherheit-- ich glaube, wir sind Setup über LDAP
Umstellung auf "Hadoop-Glas" hat den Trick gemacht. Ich habe nie gesehen, dass der Cluster auftaucht (der "anfragende Flatfile-Teil"). Mit diesem Switch ist der Server aktiv und ich kann mich verbinden. Ich konnte nicht zu Flow, da die Adresse Firewall blockiert ist (ich vermute), aber konnte durch Python verbinden und bestätigen, dass ich über hdfs importieren kann. --edit, nachdem ich den 'Namen' auf dem Server für den Fluss herausgefunden habe, konnte ich durch I-Firewall verbinden (Adresse funktioniert nicht - aber wieder Firewall, nicht h2o). – RDS