Ich richte ein paar dags ein, die schließlich mit einem Spark-Submit-Befehl zu einem Funke-Cluster enden. Ich verwende den Cluster-Modus, wenn das einen Unterschied macht. Wie auch immer, so funktioniert mein Code, aber ich erkannte, dass der Funkenjob fehlschlagen würde, würde ich nicht unbedingt von der Airflow-Benutzeroberfläche aus wissen. Durch Auslösen des Jobs über den Cluster-Modus gibt Airflow den Job an einen verfügbaren Mitarbeiter weiter, daher hat der Luftstrom keine Kenntnis vom Funke-Job.So überwachen Sie den Spark-Job mit Airflow
Wie kann ich dieses Problem beheben?
Wir haben dies berücksichtigt, aber brauchen wir unsere Luftstrombox nicht, um Teil des Spark-Clusters zu sein, wenn wir den "Client" -Modus verwenden sollten? Ich bin noch neu in Spark, als wir den Client-Modus ausprobierten, gab es keine Jobs, bis ich den Funken-Arbeiter auf der Box startete. – luckytaxi
Sie müssen 'spark-submit' auf demselben Host wie der Airflow-Worker ausführen. Dieser Worker-Knoten muss mit dem Spark-Cluster kommunizieren können. –