2017-04-04 4 views
0

Ich versuche pyspark zu MongoDB mit diesem (läuft auf Databricks) zu verbinden:PySpark MongoDB/java.lang.NoClassDefFoundError: org/Apache/Funken/SQL/Dataframe

from pyspark import SparkConf, SparkContext 
from pyspark.mllib.recommendation import ALS 
from pyspark.sql import SQLContext 
df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load() 

aber ich diesen Fehler

java.lang.NoClassDefFoundError: org/apache/Funken/sQL/Dataframe

ich bin mit spark-2.0 und Mongo-Funken-Stecker 2.11 und definiert spark.mongodb.input.uri und spark.mongodb.output .uri

Antwort

0

Sie verwenden spark.read.format bevor Sie spark

definiert Wie Sie in der Spark 2.1.0 documents

A SparkSession können Datenrahmen schaffen werden sehen können, registrieren Datenrahmen als Tabellen, führen SQL über Tabellen, Cache-Tabellen und Parkett-Dateien lesen. Um eine SparkSession zu erstellen, verwenden Sie die folgende Erbauer:

spark = SparkSession.builder \ 
.master("local") \ 
.appName("Word Count") \ 
.config("spark.some.config.option", "some-value") \ 
.getOrCreate() 
+0

eigentlich verwende ich Databricks und ich habe bereits Spark definiert, ich bekomme '', wenn ich print spark ausführen – Pierre

0

ich es geschafft, damit es funktioniert, weil ich Mongo-Funken connector_2.10-1.0.0 statt Mongo-Funken connector_2.10-2.0 mit .0