Wir führen derzeit parallele Spark-Jobs in einem EMR-Cluster mithilfe der HadoopActivity-Aufgabe von Datapipeline aus. Standardmäßig legen die neueren Versionen von EMR-Clustern die dynamische dynamic-Zuordnung auf "true" fest, wodurch die Anzahl der erforderlichen Executors basierend auf der Auslastung erhöht/reduziert wird. Also müssen wir irgendeine andere Eigenschaft zusammen mit der Funkenübermittlung einstellen, z. Anzahl der Kerne, Executor-Speicher usw. oder ist es am besten, EMR-Cluster dynamisch zu behandeln?Spark-Konfiguration senden, während parallele Jobs in EMR ausgeführt werden
Antwort
Dies hängt immer davon ab, wie Ihre Anwendung funktioniert. Ich kann Ihnen ein gutes Beispiel dafür geben, wie ich hier arbeite. Für die Data Scientists im Allgemeinen verwenden sie die Standardkonfiguration und es funktioniert ziemlich gut, da sie hier Jupyter verwenden, um ihre Modelle zu betreiben. Die einzige Sache, die wir einrichten, die für Sie nützlich sein kann, ist das conf spark.dynamicAllocation.minExecutors
das erlaubt, mindestens zwei oder einen Arbeiter für den Job zu gründen. Um nicht ohne einen Executor zu sein. Das machen wir mit den Data Scientists.
EMR verfügt jedoch über einen spezifischen Konfigurationstyp für jeden Maschinentyp, den Sie auswählen. Im Allgemeinen ist es für die häufigsten Aktivitäten optimiert. Aber manchmal müssen Sie entsprechend Ihrer Anfrage ändern, wenn Sie mehr Speicher und weniger Kerne für verzerrte Daten benötigen, die besser geändert werden können.
- 1. Senden Sie Spark-Jobs in EMR gleichzeitig von Lambda
- 2. Talend parallele Jobs
- 3. Wie werden EMR-Cluster-Schritte gleichzeitig ausgeführt?
- 4. Wenn EMR Bootstrap-Aktionen ausgeführt werden
- 5. GNU parallele nicht laichende Jobs
- 6. Wie konfiguriere ich mehrere manuelle, parallele Jobs?
- 7. Kann die parallele Ausführung von Atlassian Bamboo nicht ausgeführt werden?
- 8. Wie werden abgebrochene Autosys-Jobs erneut ausgeführt?
- 9. Geplante Powershell-Jobs werden nicht ausgeführt
- 10. Wie werden Spring-Batch-Jobs threadpooled ausgeführt?
- 11. AWS EMR Schritt fehlgeschlagen, da Jobs fehlgeschlagen
- 12. Können parallele Traversale in MATLAB wie in Python ausgeführt werden?
- 13. Wie werden parallele HTTP-Anfragen in Heroku ausgeführt?
- 14. Viele parallele WebRequests senden
- 15. Wie Jobs in Hudson in einer vordefinierten Reihenfolge ausgeführt werden?
- 16. Warten, während parallelStreams ausgeführt werden?
- 17. Wie Cron-Jobs mit vertraulichen Daten ausgeführt werden?
- 18. Relative Pfade in Skripten, die von Cron-Jobs ausgeführt werden
- 19. Gitlab-Pipeline-Jobs in derselben Phase werden nicht parallel ausgeführt.
- 20. Wie alle Warteschlange Jobs in einer Zeile ausgeführt werden
- 21. Neu hinzugefügte Jobs, die nicht in cron.daily ausgeführt werden
- 22. Wie erhalten Sie SQL Server-Jobs, die ausgeführt werden sollen, während Sie aus Windows ausgeloggt sind?
- 23. Senden eines Jobs zum Funkencluster
- 24. Wie kann ein Slave-Knoten parallele Jobs ausführen?
- 25. Wie erstellt man parallele Jobs in Bluemix Delivery Pipeline?
- 26. spring.job.enabled: true, was bewirkt, dass junit-Jobs zweimal ausgeführt werden
- 27. Azure-Web-Jobs - parallele Nachrichtenverarbeitung von Warteschlangen funktioniert nicht richtig
- 28. Resque: zeitkritische Jobs, die nacheinander pro Benutzer ausgeführt werden
- 29. Jobs -l-Befehl muss zweimal ausgeführt werden, um zu aktualisieren?
- 30. Warum meine geplanten Jobs nicht parallel ausgeführt werden