Ich habe einen AWS ElasticMapReduce-Cluster mit 3 Knoten bereitgestellt, der mit Apache Spark gestartet wurde. Von meinem lokalen Rechner, kann ich auf den Master-Knoten von SSH:Wie kann ich PySpark (lokale Maschine) mit meinem EMR-Cluster verbinden?
ssh -i <key> [email protected]
Einmal in den Master-Knoten ssh'd, ich PySpark über pyspark
zugreifen kann. Zusätzlich (obwohl unsicher) habe ich die Sicherheitsgruppe meines Master-Knotens so konfiguriert, dass sie TCP-Verkehr von der IP-Adresse meines lokalen Rechners speziell am Port 7077
akzeptiert.
Allerdings bin ich noch nicht meine lokale PySpark Instanz zu meinem Cluster verbinden:
MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark
Der obigen Befehl führt zu einer Reihe von Ausnahmen und verursacht PySpark zu keinem SparkContext Objekt initialisieren .
Weiß jemand, wie man erfolgreich eine Fernverbindung wie die oben beschriebene schafft?
Können Sie bitte erklären warum? Ich möchte das auch tun, muss aber erklären können, warum ich es nicht kann, wenn dieser Ansatz nicht funktioniert. – thebigdog
Ich ehrlich gesagt nichts dagegen Down-Voting, aber Sie können zumindest den Anstand haben, zu kommentieren, warum die Beantwortung der Antwort gültig ist ... – eliasah
Das fängt an, funnny ... Sie mögen die Antwort nicht und Sie downvote? Es ist eine gültige Antwort! – eliasah