Ich habe erstellt und führte ein % pyspark Programm in Apache Zeppelin läuft auf einem Spark-Cluster mit Garn-Client. Das Programm liest eine Datei in einem Dataframe von HDFS und führt einen einfachen groupby-Befehl aus und druckt die Ausgabe erfolgreich. Ich benutze Zeppellin Version 0.6.2 und Spark 2.0.0.Apache Zeppelin auf Spark Cluster und YARN
Ich kann den Job sehe in GARN läuft (siehe application_1480590511892_0007):
Aber wenn ich den Spark-UI zur gleichen Zeit überprüfen gibt es nichts für diesen Job:
Frage 1: Sollte dieser Job nicht in beiden Fenstern erscheinen?
Auch knapp über die fertigen Anwendungen im SparkUI Bild, waren Zeppelin Jobs mit dem % Python Interpreter einfach ein SparkSession Initialisierung und es zu stoppen:
erster Zeppelin-Block:
%python
from pyspark.sql import SparkSession
from pyspark.sql import Row
import collections
spark = SparkSession.builder.appName("SparkSQL").getOrCreate()
2. Zeppelin-Block:
%python
spark.stop()
Frage 2: Dieser Job wurde nicht in der YARN-Benutzeroberfläche angezeigt. Ist ein Job in SparkUI immer dann vorhanden, wenn er mit Spark Resource Manager ausgeführt wird?
Alle Einsichten für diese Fragen werden sehr geschätzt.
Ich bin mir nicht sicher, aber vielleicht können Sie den Job sehen, wenn Sie die Anweisung entfernen, die den Kontext stoppt. –