Ich wollte durch diese Apache Spark documentation, und es wird erwähnt, dass:Festlegen von Umgebungsvariablen in Spark-Cluster-Modus
Wenn Funken auf GARN in
cluster
-Modus ausgeführt wird, Umgebungsvariablen Bedarf eingestellt werden, mit derspark.yarn.appMasterEnv.[EnvironmentVariableName]
Eigenschaft in Ihreconf/spark-defaults.conf
Datei.
Ich verwende meinen EMR-Cluster in der AWS-Datenpipeline. Ich wollte wissen, wo ich diese Conf-Datei bearbeiten muss. Außerdem, wenn ich meine eigene benutzerdefinierte conf-Datei erstelle und sie als Teil von --configurations
(in der Spark-Submit-Datei) festlege, löst sie dann meinen Anwendungsfall?
Es sollte in diesem Fall eine JVM-Eigenschaft sein, keine Umgebungsvariable? Oder fehlt mir etwas? –
Sie haben Recht. Meine Antwort deckt den Fall für die JVM-Eigenschaften ab. In diesem Fall sollten die 'spark.yarn.appMasterEnv. [EnvironmentVariableName]' und 'spark.executorEnv. [EnvironmentVariableName]' für den Treiber bzw. die Executoren verwendet werden. – Zouzias