2016-08-04 6 views
0

ich einen Spark-Prozess haben, der zur Zeit der Mongo-hadoop Brücke wird mit (von https://github.com/mongodb/mongo-hadoop/blob/master/spark/src/main/python/README.rst) die Mongo Datenbank zuzugreifen:zu Mongo mit Replik Anschluss Set und Mongo-Hadoop-Anschluss für Spark

mongo_url = 'mongodb://localhost:27017/db_name.collection_name' 
mongo_rdd = spark_context.mongoRDD(mongo_url) 

Die Mongo Instanz wird jetzt auf einen Cluster aktualisiert, auf den nur mit einer Replikatgruppe zugegriffen werden kann.

Wie erstelle ich eine RDD mit dem Mongo-Hadoop-Anschluss? Das mongoRDD() geht zu mongoPairRDD(), das nicht mehrere Strings aufnehmen kann.

Antwort