Apache Zeppelin auf Spark Cluster und YARN

Ich habe erstellt und führte ein % pyspark Programm in Apache Zeppelin läuft auf einem Spark-Cluster mit Garn-Client. Das Programm liest eine Datei in einem Dataframe von HDFS und führt einen einfachen groupby-Befehl aus und druckt die Ausgabe erfolgreich. Ich benutze Zeppellin Version 0.6.2 und Spark 2.0.0.Apache Zeppelin auf Spark Cluster und YARN

Ich kann den Job sehe in GARN läuft (siehe application_1480590511892_0007):

Aber wenn ich den Spark-UI zur gleichen Zeit überprüfen gibt es nichts für diesen Job:

Frage 1: Sollte dieser Job nicht in beiden Fenstern erscheinen?

Auch knapp über die fertigen Anwendungen im SparkUI Bild, waren Zeppelin Jobs mit dem % Python Interpreter einfach ein SparkSession Initialisierung und es zu stoppen:

erster Zeppelin-Block:

%python 
from pyspark.sql import SparkSession 
from pyspark.sql import Row 
import collections 

spark = SparkSession.builder.appName("SparkSQL").getOrCreate()

2. Zeppelin-Block:

%python 
spark.stop()

Frage 2: Dieser Job wurde nicht in der YARN-Benutzeroberfläche angezeigt. Ist ein Job in SparkUI immer dann vorhanden, wenn er mit Spark Resource Manager ausgeführt wird?

Alle Einsichten für diese Fragen werden sehr geschätzt.

Quelle

2016-12-01 and_apo

Ich bin mir nicht sicher, aber vielleicht können Sie den Job sehen, wenn Sie die Anweisung entfernen, die den Kontext stoppt. –

Zeppelin führt eine kontinuierliche Spark-Anwendung aus, sobald der Interpreter zum ersten Mal verwendet wird. Alle Absätze werden in dieser einen Anwendung ausgeführt. In Ihrem zweiten Absatz stoppen Sie die SparkSession (spark.stop), so dass die Anwendung, die bei der ersten Verwendung des Interpreters erstellt wurde, beendet wird. Sie können also die Jobs im Abschnitt Abgeschlossene Anwendungen sehen. Wenn Sie spark.stop entfernen, sollten Sie den unter "Anwendungen ausführen" aufgeführten Job sehen.

Quelle

2017-05-18 18:35:09 Greg

Apache Zeppelin auf Spark Cluster und YARN

Antwort

Verwandte Themen