2016-06-13 9 views
0

Ich hoffe, es geht Ihnen gut.So automatisieren Sie das Pyspark-Skript in Microsoft Azure

Ich bin neu bei Spark sowie Microsoft Azure. Gemäß unserer Projektanforderung haben wir ein Pyspark-Skript entwickelt, obwohl das Jupyter-Notebook in unserem HDInsight-Cluster installiert ist. Bis heute haben wir den Code vom Jupyter selbst ausgeführt, aber jetzt müssen wir das Skript automatisieren. Ich habe versucht, Azure Datafactory zu verwenden, konnte aber von dort aus keine Möglichkeit finden, das Pyspark-Skript auszuführen. Auch versucht, oozie zu verwenden, aber konnte nicht herausfinden, wie man es benutzt.

Mögen Sie mir bitte helfen, wie ich ein Pyspark-Skript in azurblau automatisieren/planen kann.

Danke, Shamik.

Antwort

0

Azure Data Factory bietet heute keine erstklassige Unterstützung für Spark. Wir arbeiten daran, diese Integration in Zukunft hinzuzufügen. Bis zu diesem Zeitpunkt haben wir ein Beispiel auf Github veröffentlicht, das ADF Map Reduce Activity verwendet, um ein Jar einzureichen, das Spark Submit aufruft.

Bitte schauen Sie hier: https://github.com/Azure/Azure-DataFactory/tree/master/Samples/Spark

+0

Danke Gaurav, werde ich versuchen, diesen Ansatz. Abgesehen von datafactory gibt es einen Weg, durch den wir in Azure HdInsight ein Pyspark-Prohram planen können? – Shamik

+0

Ich habe versucht, mit dem Beispiel in der Verknüpfung erwähnt und festgestellt, dass 'style': 'StartOfInterval' erstellt eine Ausnahme, die besagt, dass ein Unterschied in den Verfügbarkeitseinstellungen in Ausgabe und Pipeline ist. Sobald ich dieses Attribut aus dem Pipeline-JSON entfernt habe, wurde es erfolgreich verteilt. Jetzt werde ich prüfen, ob es läuft oder nicht. – Shamik

+0

Der oben erwähnte Link ist momentan nicht verfügbar. – Arron

Verwandte Themen