Verwenden von Spark-submit extern vom EMR-Cluster-Master

Wir haben einen Hadoop-Cluster in AWS Elastic MapReduce (EMR) mit Spark 1.6.1 ausgeführt. Es ist kein Problem, in den Cluster-Master zu gelangen und Spark-Jobs zu senden, aber wir möchten sie von einer anderen unabhängigen EC2-Instanz einreichen können.Verwenden von Spark-submit extern vom EMR-Cluster-Master

Die andere 'externe' EC2-Instanz verfügt über Sicherheitsgruppen, die eingerichtet wurden, um den gesamten TCP-Datenverkehr von und zu den Slave-Instanzen des EMR-Instanz-Masters & zu ermöglichen. Es hat eine binäre Installation von Spark direkt von der Apache-Website heruntergeladen.

die kopierte Nachdem/etc/hadoop/conf Ordner aus dem Master zu diesem Fall und $ HADOOP_CONF_DIR entsprechend eingestellt, wenn Versuch, das SparkPi Beispiel einreichen, ich laufe in die folgenden Erlaubnis Ausgabe:

$ /usr/local/spark/bin/spark-submit --master yarn --deploy-mode client --class org.apache.spark.examples.SparkPi /usr/local/spark/lib/spark-examples-1.6.1-hadoop2.6.0.jar 
16/06/22 13:58:52 INFO spark.SparkContext: Running Spark version 1.6.1 
16/06/22 13:58:52 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
16/06/22 13:58:52 INFO spark.SecurityManager: Changing view acls to: jungd 
16/06/22 13:58:52 INFO spark.SecurityManager: Changing modify acls to: jungd 
16/06/22 13:58:52 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions:  Set(jungd); users with modify permissions: Set(jungd) 
16/06/22 13:58:52 INFO util.Utils: Successfully started service 'sparkDriver' on port 34757. 
16/06/22 13:58:52 INFO slf4j.Slf4jLogger: Slf4jLogger started 
16/06/22 13:58:52 INFO Remoting: Starting remoting 
16/06/22 13:58:53 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:39241] 
16/06/22 13:58:53 INFO util.Utils: Successfully started service 'sparkDriverActorSystem' on port 39241. 
16/06/22 13:58:53 INFO spark.SparkEnv: Registering MapOutputTracker 
16/06/22 13:58:53 INFO spark.SparkEnv: Registering BlockManagerMaster 
16/06/22 13:58:53 INFO storage.DiskBlockManager: Created local directory at /tmp/blockmgr-300d738e-d7e4-4ae9-9cfe-4e257a05d456 
16/06/22 13:58:53 INFO storage.MemoryStore: MemoryStore started with capacity 511.1 MB 
16/06/22 13:58:53 INFO spark.SparkEnv: Registering OutputCommitCoordinator 
16/06/22 13:58:53 INFO server.Server: jetty-8.y.z-SNAPSHOT 
16/06/22 13:58:53 INFO server.AbstractConnector: Started [email protected]:4040 
16/06/22 13:58:53 INFO util.Utils: Successfully started service 'SparkUI' on port 4040. 
16/06/22 13:58:53 INFO ui.SparkUI: Started SparkUI at http://172.31.61.189:4040 
16/06/22 13:58:53 INFO spark.HttpFileServer: HTTP File server directory is /tmp/spark-5e332986-ae2a-4bde-9ae4-edb4fac5e1d7/httpd-e475fd1b-c5c8-4f31-9699-be89fff4a69c 
16/06/22 13:58:53 INFO spark.HttpServer: Starting HTTP Server 
16/06/22 13:58:53 INFO server.Server: jetty-8.y.z-SNAPSHOT 
16/06/22 13:58:53 INFO server.AbstractConnector: Started [email protected]:43525 
16/06/22 13:58:53 INFO util.Utils: Successfully started service 'HTTP file server' on port 43525. 
16/06/22 13:58:53 INFO spark.SparkContext: Added JAR file:/usr/local/spark/lib/spark-examples-1.6.1-hadoop2.6.0.jar at http://172.31.61.189:43525/jars/spark-examples-1.6.1-hadoop2.6.0.jar with timestamp 1466603933454 
16/06/22 13:58:53 INFO client.RMProxy: Connecting to ResourceManager at ip-172-31-60-166.ec2.internal/172.31.60.166:8032 
16/06/22 13:58:53 INFO yarn.Client: Requesting a new application from cluster with 2 NodeManagers 
16/06/22 13:58:53 INFO yarn.Client: Verifying our application has not requested more than the maximum memory capability of the cluster (11520 MB per container) 
16/06/22 13:58:53 INFO yarn.Client: Will allocate AM container, with 896 MB memory including 384 MB overhead 
16/06/22 13:58:53 INFO yarn.Client: Setting up container launch context for our AM 
16/06/22 13:58:53 INFO yarn.Client: Setting up the launch environment for our AM container 
16/06/22 13:58:53 INFO yarn.Client: Preparing resources for our AM container 
16/06/22 13:58:54 ERROR spark.SparkContext: Error initializing SparkContext. 
org.apache.hadoop.security.AccessControlException: Permission denied: user=jungd, access=WRITE, inode="/user/jungd/.sparkStaging/application_1466437015320_0014":hdfs:hadoop:drwxr-xr-x 
at   org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:319) 
at  org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:292) 
at  org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:213)

Es macht keinen Unterschied, wenn Sie den Cluster-Bereitstellungsmodus verwenden. Der betreffende Benutzer ist ein lokaler Benutzer auf der 'externen' EC2-Instanz (wir haben mehrere Entwicklerkonten), die nicht auf dem Master oder den Slaves des Clusters existiert (und sogar lokal sind die Home-Verzeichnisse der Benutzer in/home, nicht/Benutzer).

Ich bin ratlos, um herauszufinden, was vor sich geht. Jede Hilfe sehr geschätzt.

Quelle

2016-06-22 DavidJ

Update: Es scheint zu funktionieren, wie erwartet, wenn ich einen lokalen "Hadoop" Benutzer erstellen und Spark Submit oder Pyspark als diesen Benutzer ausführen, obwohl das nicht was wir wollen. – DavidJ

Ein paar Dinge erforderlich sind, von einer anderen Maschine als der Master laufen Funken einreichen:

Benutzer können die Benutzer der Einreichung Bedarf passend in HDFS
- zum Beispiel geschaffen werden, den Farbton mit Konsole oder direkt durch Erstellen von/user/NAME-Ordnern und Festlegen von Berechtigungen mit dem Befehlszeilentool hadoop fs auf dem Master
- Alle erforderlichen Ports zwischen der externen Maschine und Der Cluster-Master & Slaves müssen in beiden Richtungen geöffnet sein (oder alternativ alle TPC-Verkehr).
- Wenn innerhalb der AWS EC2 EMR-Umgebung die Sicherheitsgruppen der Maschine, der Master und die Slaves von den anderen Gruppen explizit zulassen können.

Es kann auch erforderlich sein, Benutzer zu erstellen, wie Linux auf dem Master-Konten.

Quelle

2016-06-23 13:37:01 DavidJ

Verwenden von Spark-submit extern vom EMR-Cluster-Master

Antwort

Verwandte Themen