2015-12-07 6 views
5

Wir haben einen Cluster, der etwa 20 Knoten hat. Dieser Cluster wird von vielen Benutzern und Jobs gemeinsam genutzt. Daher ist es sehr schwierig für mich, meinen Job zu beobachten, so dass ich einige Metriken wie CPU-Auslastung, E/A, Netzwerk, Speicher usw. erhalten kann.Wie erhalten Sie die Messdaten eines Spark-Jobs?

Wie kann ich eine Metrik auf Job-Ebene erhalten?

PS: Der Cluster hat bereits Ganglia installiert, aber nicht sicher, wie ich es auf der Job-Ebene arbeiten könnte. Was ich tun möchte, ist die vom Cluster verwendete Ressource zu überwachen, um nur meinen Job auszuführen.

+0

Nicht sicher, ob Sie richtig verstanden habe. Sie möchten direkt von Ihrem Job verschiedene Cluster-Metriken erhalten? Oder möchten Sie wissen, wie viele Ressourcen Ihr Job verwendet? – maxteneff

+0

@maxteneff, sorry, wenn ich nicht klar auf meinem Post war. Ich möchte wissen, wie viele Ressourcen mein Job verwendet hat. – diplomaticguru

Antwort

1

Sie können die Funken Job-Metriken von Spark-History Server erhalten, die über Informationen anzeigt:
- Eine Liste der Scheduler Stufen und Aufgaben
- Eine Zusammenfassung der RDD Größen und Speichernutzung
- Eine Umweltinformationen
- Eine Information über den Lauf Testamentsvollstrecker

1, Set spark.eventLog.enabled auf true vor der Funke Anwendung starten. Dies konfiguriert Spark, um Spark-Ereignisse in persistentem Speicher zu protokollieren.
2, Set spark.history.fs.logDirectory, dies ist das Verzeichnis, das Anwendungsereignisprotokolle enthält, die vom Verlaufsserver geladen werden sollen.
3 Starten Sie die Geschichte Server durch Ausführen: ./sbin/start-history-server.sh

, um weitere Informationen unter Link finden Sie:
http://spark.apache.org/docs/latest/monitoring.html

Verwandte Themen