2016-03-28 3 views
0

Ich habe einen SPARK-Cluster auf HDInsight eingerichtet und versuchte GraphFrames mit this tutorial zu verwenden.wie GraphFrames in SPARK auf HDInsight-Cluster verwenden

Ich habe bereits die benutzerdefinierten Skripts während der Cluster-Erstellung verwendet, um die GraphX auf dem Funkencluster wie hier beschrieben zu aktivieren.

Wenn ich den Notizblock leite,

import org.apache.spark.sql._ 
import org.apache.spark.sql.functions._ 

import org.graphframes._ 

bekomme ich folgende Fehler

<console>:45: error: object graphframes is not a member of package org 
     import org.graphframes._ 
       ^

ich die graphframes vom Funken Terminal über Jupyter mit dem folgenden Befehl zu installieren versucht:

$SPARK_HOME/bin/spark-shell --packages graphframes:graphframes:0.1.0-spark1.5 

aber immer noch kann ich es nicht funktionieren. Ich bin neu bei Spark und HDInsight, also kann jemand bitte darauf hinweisen, was ich sonst noch auf diesem Cluster installieren muss, damit das funktioniert.

+0

Es sieht so aus, als ob Ihre GraphX-Verbindung unterbrochen ist ... –

+0

Wie kann ich das überprüfen? – Kiran

+0

haben Sie es in einem Nicht-HDInsight-Cluster versucht? – eliasah

Antwort

0

Heute funktioniert dies in Spark-Shell, funktioniert aber nicht in jupyter Notebook. Also, wenn Sie das ausführen: $ SPARK_HOME/bin/Spark-Shell --packages graphframes: graphframes: 0.1.0-spark1.5 Es funktioniert (mindestens auf Spark 1.6 Cluster-Version) im Kontext dieser Spark-Shell-Sitzung . Aber in Jupyter gibt es zur Zeit keine Möglichkeit Pakete zu laden. Diese Funktion wird in Kürze zu den jupyter Notebooks in den Clustern hinzugefügt. In der Zwischenzeit können Sie Spark-Shell oder Spark-Submit usw. verwenden.

0

Sobald Sie Graphframes-Bibliotheken aus dem Maven-Repository hochladen oder importieren, müssen Sie Ihren Cluster neu starten, um die Bibliothek anzuhängen.

So funktioniert es für mich.