2016-12-01 1 views
7

Ich habe einen AWS ElasticMapReduce-Cluster mit 3 Knoten bereitgestellt, der mit Apache Spark gestartet wurde. Von meinem lokalen Rechner, kann ich auf den Master-Knoten von SSH:Wie kann ich PySpark (lokale Maschine) mit meinem EMR-Cluster verbinden?

ssh -i <key> [email protected] Einmal in den Master-Knoten ssh'd, ich PySpark über pyspark zugreifen kann. Zusätzlich (obwohl unsicher) habe ich die Sicherheitsgruppe meines Master-Knotens so konfiguriert, dass sie TCP-Verkehr von der IP-Adresse meines lokalen Rechners speziell am Port 7077 akzeptiert.

Allerdings bin ich noch nicht meine lokale PySpark Instanz zu meinem Cluster verbinden:

MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark

Der obigen Befehl führt zu einer Reihe von Ausnahmen und verursacht PySpark zu keinem SparkContext Objekt initialisieren .

Weiß jemand, wie man erfolgreich eine Fernverbindung wie die oben beschriebene schafft?

Antwort

2

Wenn Ihr lokaler Computer nicht der Master-Knoten für Ihren Cluster ist, können Sie dies nicht tun. Das können Sie mit AWS EMR nicht tun.

+0

Können Sie bitte erklären warum? Ich möchte das auch tun, muss aber erklären können, warum ich es nicht kann, wenn dieser Ansatz nicht funktioniert. – thebigdog

+0

Ich ehrlich gesagt nichts dagegen Down-Voting, aber Sie können zumindest den Anstand haben, zu kommentieren, warum die Beantwortung der Antwort gültig ist ... – eliasah

+0

Das fängt an, funnny ... Sie mögen die Antwort nicht und Sie downvote? Es ist eine gültige Antwort! – eliasah

Verwandte Themen