2016-11-03 6 views
3

Ich weiß, dass diese Frage schon einmal gestellt wurde, aber diese Antworten scheinen sich um Hadoop zu drehen. Für Spark brauchen Sie nicht wirklich all den zusätzlichen Hadoop Cruft. Mit dem Skript spark-ec2 (verfügbar über GitHub für 2.0) ist Ihre Umgebung für Spark vorbereitet. Gibt es zwingende Anwendungsfälle (außer einer weit überlegenen SDK-Schnittstelle boto3) für den Betrieb mit EMR über EC2?Hat EMR immer noch Vorteile gegenüber EC2 für Spark?

Antwort

3

Diese Frage läuft auf den Wert von Managed Services, IMHO.

Lauffunken als eigenständige im lokalen Modus erfordert nur die neueste Funken erhalten, entpacken Sie es, cd seiner bin Pfad und dann spark-submit läuft, etc

jedoch einen Cluster mit mehreren Knoten erstellen, die in Cluster läuft Modus erfordert, dass Sie tatsächlich echte Netzwerkfunktionen ausführen, konfigurieren, optimieren usw. Das bedeutet, dass Sie sich mit IAM-Rollen, Sicherheitsgruppen und mit Subnetzüberlegungen in Ihrer VPC befassen müssen.

Wenn Sie EMR verwenden, erhalten Sie einen Turnkey-Cluster, in dem Sie mit einem Klick viele beliebte Anwendungen (einschließlich Spark) installieren können und alle Sicherheitsgruppen bereits ordnungsgemäß für die Netzwerkkommunikation zwischen Knoten konfiguriert sind Protokollierung bereits eingerichtet und auf S3 zeigen, Sie haben einfache SSH-Anweisungen, Sie haben eine bereits installierte Vorrichtung zum Tunneln und Anzeigen der verschiedenen UIs, Sie haben visuelle Nutzungsmetriken auf der IO-Ebene, Knoten-Ebene und Job Sie können auch Steps erstellen und ausführen. Dabei handelt es sich um Jobs, die in der Befehlszeile des Laufwerksknotens ausgeführt werden können, oder als Spark-Anwendungen, die den gesamten Cluster nutzen. Darüber hinaus können Sie den gesamten Cluster einschließlich der darin enthaltenen Schritte exportieren und das Skript CLI über DataPipeline in einen wiederkehrenden Job einfügen und buchstäblich innerhalb von 60 Sekunden eine ETL-Pipeline erstellen.

Sie würden nichts davon bekommen, wenn Sie es selbst in EC2 gebaut hätten. Ich weiß, welchen ich wählen würde ... EMR. Aber das bin nur ich.

Verwandte Themen