2016-03-25 16 views
1

ich in der Lage bin erfolgreich zu laufen jupyter mit pyspark https://cloud.google.com/dataproc/tutorials/jupyter-notebookPakete Hinzufügen pyspark mit jupyter Notebook

Meine Frage verwendet, ist - wenn ich Pakete hinzufügen, sie durch die pyspark (wie Funken csv oder graphframes) und verwenden Notebook, was ist die beste Praxis zu folgen? Ich kann das Paket in einem neuen pyspark-Job mit der Option --packages hinzufügen, aber wie verbinde ich diesen neuen pyspark-Kontext mit dem Notebook?

Antwort

1

Damit das Notebook funktioniert, möchten Sie, dass das Notebook-Setup die richtigen Pakete selbst findet. Da die Initialisierungsaktion, die Sie verknüpft haben, funktioniert, um sicherzustellen, dass Jupyter die konfigurierten Spark-Verzeichnisse des Clusters verwendet und somit alle notwendigen YARN/Dateisystem-/lib-Konfigurationen übernimmt, fügen Sie die Eigenschaft am besten zur Clustererstellungszeit hinzu Job-Vorlage Zeit:

gcloud dataproc clusters create \ 
    --properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0 

Per this StackOverflow error, das Setzen der spark-defaults.conf Eigenschaft spark.jars.packages die mehr tragbar ist gleichbedeutend mit der --packages Option anzugeben, da --packages nur syntaktischer Zucker in Funken Schale/Funken einreichen/pyspark Wrapper die Sets der spark.jars.packages Konfigurationseintrag sowieso.

Verwandte Themen