Ich weiß, dass diese Frage schon einmal gestellt wurde, aber diese Antworten scheinen sich um Hadoop zu drehen. Für Spark brauchen Sie nicht wirklich all den zusätzlichen Hadoop Cruft. Mit dem Skript spark-ec2
(verfügbar über GitHub für 2.0) ist Ihre Umgebung für Spark vorbereitet. Gibt es zwingende Anwendungsfälle (außer einer weit überlegenen SDK-Schnittstelle boto3
) für den Betrieb mit EMR über EC2?Hat EMR immer noch Vorteile gegenüber EC2 für Spark?
Antwort
Diese Frage läuft auf den Wert von Managed Services, IMHO.
Lauffunken als eigenständige im lokalen Modus erfordert nur die neueste Funken erhalten, entpacken Sie es, cd seiner bin
Pfad und dann spark-submit
läuft, etc
jedoch einen Cluster mit mehreren Knoten erstellen, die in Cluster läuft Modus erfordert, dass Sie tatsächlich echte Netzwerkfunktionen ausführen, konfigurieren, optimieren usw. Das bedeutet, dass Sie sich mit IAM-Rollen, Sicherheitsgruppen und mit Subnetzüberlegungen in Ihrer VPC befassen müssen.
Wenn Sie EMR verwenden, erhalten Sie einen Turnkey-Cluster, in dem Sie mit einem Klick viele beliebte Anwendungen (einschließlich Spark) installieren können und alle Sicherheitsgruppen bereits ordnungsgemäß für die Netzwerkkommunikation zwischen Knoten konfiguriert sind Protokollierung bereits eingerichtet und auf S3 zeigen, Sie haben einfache SSH-Anweisungen, Sie haben eine bereits installierte Vorrichtung zum Tunneln und Anzeigen der verschiedenen UIs, Sie haben visuelle Nutzungsmetriken auf der IO-Ebene, Knoten-Ebene und Job Sie können auch Steps
erstellen und ausführen. Dabei handelt es sich um Jobs, die in der Befehlszeile des Laufwerksknotens ausgeführt werden können, oder als Spark-Anwendungen, die den gesamten Cluster nutzen. Darüber hinaus können Sie den gesamten Cluster einschließlich der darin enthaltenen Schritte exportieren und das Skript CLI
über DataPipeline in einen wiederkehrenden Job einfügen und buchstäblich innerhalb von 60 Sekunden eine ETL-Pipeline erstellen.
Sie würden nichts davon bekommen, wenn Sie es selbst in EC2 gebaut hätten. Ich weiß, welchen ich wählen würde ... EMR. Aber das bin nur ich.
- 1. Spark läuft auf EC2 vs EMR
- 2. Hat ExecuteScalar() irgendwelche Vorteile gegenüber ExecuteReader()?
- 3. Welche Vorteile hat Scala gegenüber Java für die gleichzeitige Programmierung?
- 4. Welche Vorteile hat das Test Data Builder-Muster gegenüber Objektinitialisierern?
- 5. Sind die Vorteile von SFIO über STDIO noch immer gültig?
- 6. Spark AWS EMR Checkpoint Location
- 7. Welche Vorteile hat eine dokumentenbasierte Datenbank gegenüber einer relationalen Datenbank?
- 8. Vorteile von Parcelable gegenüber JSON
- 9. Welche Vorteile hat MATLAB gegenüber SCILAB und umgekehrt?
- 10. Abhängigkeitseigenschaft hat viele Vorteile gegenüber den normalen CLR-Eigenschaften Wie?
- 11. Vorteile von MySQL gegenüber MySQL
- 12. Vorteile von MemoryPoolMXBean.getUsage() gegenüber Runtime.freeMemory()
- 13. Spark auf EMR konfigurieren
- 14. Amazon EC2 vs. Amazon EMR
- 15. Spark Schritt in EMR
- 16. AWS EMR Spark 1.0
- 17. Welche Vorteile bietet Sass gegenüber normalem CSS?
- 18. Vorteile von abstrakten Methoden gegenüber Methodenüberschreibung
- 19. Groovy Vorteile gegenüber Jython oder Jruby?
- 20. Hat eine sprachspezifische IDE Vorteile gegenüber einem Plugin für eine mehrsprachige IDE?
- 21. Hat PLINQ wirklich Vorteile?
- 22. Bietet Pthreads irgendwelche Vorteile gegenüber GCD?
- 23. ado.net Datendienst Vorteile/Nachteile gegenüber WCF-Dienst
- 24. BeatifulSoup4 get_text hat immer noch Javascript
- 25. Redshift Abfrage von EMR Spark-
- 26. Spark UI auf AWS EMR
- 27. AWS EMR Spark Schrittargus Bug
- 28. Vorteile einer Bitmatrix gegenüber einer Bitmap
- 29. Welche Vorteile bietet WCF gegenüber ASMX-Webdiensten?
- 30. AWS 'EMR vs EC2 Preise Verwirrung