2017-11-02 4 views
1

Von einem Udemy Kurs vor etwa einem Jahr habe ich PySpark (ver 1.1) installiert, glaube ich auf meinem Windows 10 Laptop, benutze es mit Jupyter Notebook. Ein Jahr später musste ich Anaconda 3, usw. neu installieren und alles schien gut zu funktionieren, außer das Ausführen von Funkenbefehlen. Ich habe Pyspark mit dem folgenden Befehl installiert: conda install -c conda-forge pyspark. Jetzt versuche ich alle Skripte meiner Udemy zu verwenden, und ich erhalte die folgend:Probleme nach conda PySpark unter Windows 10 installieren

Exception Traceback (most recent call last) <ipython-input-5-03dc2d316f89> in <module>()1 sc = SparkSession.builder.appName('Basics').getOrCreate() 

~\Anaconda3\lib\site-packages\pyspark\sql\session.py in getOrCreate(self) 

167      for key, value in self._options.items(): 
168       sparkConf.set(key, value) 
169      sc = SparkContext.getOrCreate(sparkConf) 
170      # This SparkContext may be an existing one. 
171      for key, value in self._options.items(): 

ich den neuesten PySpark ver 2.2.0 installiert ist, und ich im Grunde dieselbe Frage mit einer Reihe von verwirrenden Antworten. Wie ich angedeutet habe, habe ich vor einem Jahr eine ältere Version von PySpark auf dieser Win 10-Box laufen lassen.

Irgendwelche Ideen oder Hinweise?

+0

Willkommen zu SO; Wenn Sie die Antwort nützlich fanden, vergessen Sie bitte nicht * zu akzeptieren * es - danke – desertnaut

Antwort

0

Pyspark von PyPI oder Anaconda (d.h. installiert mit pip oder conda) nicht nicht die volle Pyspark Funktionalität enthalten; Es ist nur für die Verwendung mit einer Spark-Installation in einem bereits vorhandenen Cluster vorgesehen. In diesem Fall kann avoid downloading the whole Spark distribution locally verwendet werden. Vom PyPi docs (diese Informationen sollten auch in den Anaconda Cloud, sein, aber leider ist es nicht):

Die Python-Verpackung für Spark ist nicht für alle der anderen Anwendungsfälle zu ersetzen. Diese Python-Paketversion von Spark eignet sich für Interaktion mit einem vorhandenen Cluster (sei es Spark Standalone, YARN oder Mesos) - enthält jedoch nicht die Tools zum Einrichten eigener Standalone-Spark-Cluster. Sie können die Vollversion von Spark von der Apache Spark downloads page herunterladen.

Also, was Sie tun sollten, ist das Herunterladen der vollständigen Spark-Distribution (von der Pyspark ein integraler Bestandteil ist) von dem obigen Link. Sicher, das ist genau das, was Sie in der Vergangenheit gemacht haben, da die Option pip/conda erst kürzlich in Spark 2.1 verfügbar wurde.

Verwandte Themen