2016-09-23 14 views
0

Ich habe nur Erfahrung in RDBMS PostgresSQL nur Aber ich bin neu zu Apache Spark und MongoDB.
So im folgenden Verwirrungen bitte ich

Unterschied zwischen Apache Spark SQL und MongoDB?

1) Was ist der Unterschied zwischen Apache Spark SQL und MongoDB?
2) Welche Art von Orten/Szenarien/Domänen brauche ich SparkSQL oder MongoDB oder kombinierte Art und Weise?
3) Apache Spark ist Ersatz von wie MondoDB, Cassandra ...?
4) Ich habe mehrere Terabyte Daten in MongoDB, von denen ich Datenanalysen machen will und dann Berichte bereitstellen muss.

So teilen Sie mir bitte Ihr Wissen und geben Sie mir Ihre Eingaben

Grüße
Shankar S

Antwort

5

1) Apache Spark-: Apache Spark in SQL-Abfragen auf Big Data Parallel Computing Operationen zu tun.

MongoDB: MongoDB ist ein Dokument speichern und im Wesentlichen eine Datenbank ist, kann so nicht mit Funken verglichen werden, die eine Rechenmotor ist und kein Geschäft.

2) SparkSQL kann ideal für die Verarbeitung von Strukturdaten sein, die in den Spark-Cluster importiert wurden, wo Millionen von Daten für große Computer verfügbar sind. Mongodb kann verwendet werden, wo Sie NoSQL-Funktionen benötigen (Es hat volle NoSQL-Funktionen, im Vergleich zu SparkSQL).

3) No Apache Spark ist für verschiedene Zwecke verwenden, können Sie es mit mondoDB nicht ersetzen kann, ist cassandra.It wie Motor Berechnen Sie die Ergebnisse zu geben, vorherzusagen, auf large data sets

4) Verwenden Drittanbieter-Dienst wie SLAM DATA http://slamdata.com/ zu mongodb Analytics auch verwenden Funken Datenrahmen zum Einlesen der Daten von MongoDB

+0

Danke, Wasiq Muhammad –

3

Das sind zwei verschiedene und umfassende Fragen, aber ich versuche, mache zu beantworten: -

1) Was ist der Unterschied zwischen Apache Spark SQL und MongoDB?

Spark SQL ist eine Bibliothek, die von Apache Spark zur Verfügung gestellt wird, um parallele Rechenoperationen für Big Data in SQL-Abfragen auszuführen. MongoDB ist ein Dokumentenspeicher und ist im Wesentlichen eine Datenbank, also kann nicht mit Spark verglichen werden, der eine Datenverarbeitungsmaschine und kein Speicher ist.

2) Welche Art von Orten/Szenarien/Domänen brauche ich SparkSQL oder MongoDB oder kombinierte Art und Weise?

SparkSQL kann ideal für die Verarbeitung von Strukturdaten sein, die im Spark-Cluster importiert wurden. Mongodb kann ideal sein, wo Sie NoSQL-Funktionen benötigen (Es hat volle NoSQL-Fähigkeiten, im Vergleich zu SparkSQL)

3) Apache Spark ist ersetzen von wie MondoDB, Cassandra ...?

Nicht genau, da sie in unterschiedlichem Umfang sind. Apache Spark ersetzt nicht, kann aber als Nachfolger von Map-reduce für die parallele Berechnung großer Datasets aufgerufen werden.

4) Ich habe mehrere Terabyte Daten in MongoDB, von denen ich Datenanalysen machen möchte und dann Berichte bereitstellen muss.

Verwenden Sie Funke Datenframe zum Einlesen der Daten von MongoDB mit JDBC-Treiber und dann können Sie einige Spark SQL-Abfragen auf dem Datenframe ausführen, und dann können Sie andere Visualisierungs-Tools wie PYPLOT verwenden, um Berichte zu generieren.

Danke,

Charles.

+0

Dank Charles. In meinem Fall habe ich Millionen von Datensätzen im MongoDB-Cluster. Von diesen Aufzeichnungen möchte ich aggregieren, zählen, Summe, Groupby, Sortiervorgänge. Danach müssen aggregierte Daten einige Grafikwerkzeuge bereitstellen. Das ist insgesamt Arbeit.So von Ihren Eingaben habe ich so verstanden. 1) Ich möchte Daten von MongoDB-Cluster zu Spark Cluster laden. 2) Dann muss ich Daten von Spark Cluster zu SparkSQL nehmen. 3) Dann mit SparkSQL muss ich Aggregationen, zählen, Summe, Sortiervorgänge tun. 4) Nach dem vollständigen Aggregat, Summe, Sortieroperationen muss ich diese Daten zu Grafik-Tools liefern Richtig? –

Verwandte Themen