Das sind zwei verschiedene und umfassende Fragen, aber ich versuche, mache zu beantworten: -
1) Was ist der Unterschied zwischen Apache Spark SQL und MongoDB?
Spark SQL ist eine Bibliothek, die von Apache Spark zur Verfügung gestellt wird, um parallele Rechenoperationen für Big Data in SQL-Abfragen auszuführen. MongoDB ist ein Dokumentenspeicher und ist im Wesentlichen eine Datenbank, also kann nicht mit Spark verglichen werden, der eine Datenverarbeitungsmaschine und kein Speicher ist.
2) Welche Art von Orten/Szenarien/Domänen brauche ich SparkSQL oder MongoDB oder kombinierte Art und Weise?
SparkSQL kann ideal für die Verarbeitung von Strukturdaten sein, die im Spark-Cluster importiert wurden. Mongodb kann ideal sein, wo Sie NoSQL-Funktionen benötigen (Es hat volle NoSQL-Fähigkeiten, im Vergleich zu SparkSQL)
3) Apache Spark ist ersetzen von wie MondoDB, Cassandra ...?
Nicht genau, da sie in unterschiedlichem Umfang sind. Apache Spark ersetzt nicht, kann aber als Nachfolger von Map-reduce für die parallele Berechnung großer Datasets aufgerufen werden.
4) Ich habe mehrere Terabyte Daten in MongoDB, von denen ich Datenanalysen machen möchte und dann Berichte bereitstellen muss.
Verwenden Sie Funke Datenframe zum Einlesen der Daten von MongoDB mit JDBC-Treiber und dann können Sie einige Spark SQL-Abfragen auf dem Datenframe ausführen, und dann können Sie andere Visualisierungs-Tools wie PYPLOT verwenden, um Berichte zu generieren.
Danke,
Charles.
Danke, Wasiq Muhammad –