Ich verstehe Google Dataproc-Cluster sind ausgestattet, um Initialisierungsaktionen zu behandeln - die bei der Erstellung von jedem Knoten ausgeführt werden. Dies ist jedoch nur für kleine Aktionen sinnvoll und würde nicht gut für die Erstellung von Knoten mit vielen Abhängigkeiten und Software für große Pipelines geeignet sein. Daher frage ich mich - gibt es sowieso, Knoten als benutzerdefinierte Bilder zu laden oder ein Bild hochzufahren, sobald der Knoten erstellt wurde, der alle Installationen darauf hat, so dass Sie die Dinge nicht immer wieder herunterladen müssen.Dataproc Knoten-Setup
Antwort
Gute Frage.
Wie Sie bemerken, initialization actions sind derzeit die kanonische Art, Sachen auf Clustern zu installieren, wenn sie erstellt werden. Wenn Sie eine Menge Abhängigkeiten haben oder Dinge von der Quelle aus kompilieren müssen, können diese Initialisierungsaktionen etwas dauern.
Wir haben Unterstützung für eine bessere Methode zur Anpassung an unsere langfristige Roadmap. Dies kann über benutzerdefinierte Bilder oder einen anderen Mechanismus geschehen.
In der Zwischenzeit kann das Skalieren von Clustern nach oben/unten eine Erleichterung bieten, wenn Sie einige der Anpassungen beibehalten und den Unterschied zwischen der Startzeit und der Persistenz Ihres Clusters aufteilen möchten. Ebenso, wenn es vorkompilierte Pakete gibt, sparen diese immer Zeit.
- 1. Dataproc bdutil Versionierung
- 2. Dataproc Fehler Oozie Paket
- 3. Mehrere google-dataflow- und dataproc-Jobs
- 4. funken Standardeinstellungen auf dataproc, insbesondere spark.yarn.am.memory
- 5. Zugriff auf Cloud SQL von dataproc?
- 6. Google Cloud Dataproc von Google Datalab
- 7. Spark UI auf Dataproc Cluster verfügbar?
- 8. Spark 2.0 und Scala 2.11 auf Dataproc?
- 9. Google Stackdriver verliert Verbindung zu Dataproc
- 10. Executor Heartbeat Zeitüberschreitung Spark auf DataProc
- 11. NoSuchMethodError StorageObject.getTimeCreated laufender Job in Dataproc
- 12. Wie werden fehlerhafte DataProc Worker-Prozesse untersucht?
- 13. Ändern des Dienstkontos bei google dataproc
- 14. Lesen von S3-Daten aus Googles Dataproc
- 15. Spark-Job wurde inkompatibel mit Google Dataproc
- 16. Wie aktualisiere ich den Clusterstatus in dataproc
- 17. Google Cloud Sdk von DataProc Cluster
- 18. Recommender API mit dataproc in Produktion
- 19. Google Dataproc und BigQuery Integration mit benutzerdefinierten Abfrage
- 20. Unable Funken thrift Server in Google-Cloud-Dataproc
- 21. Verwalten von Python-Abhängigkeiten mit Spark in google cloud dataproc
- 22. Wurde die Spark-Version des Google Cloud Dataproc-Vorschaubilds geändert?
- 23. Wie starte ich Hadoop-Dienste auf dem DataProc-Cluster
- 24. Wie planen BigQuery und Dataproc für Machine Learning
- 25. Verwalten Sie Google Dataproc preemptible-Arbeiter persistente Festplatte Größe
- 26. DataProc Avro Version verursacht Fehler auf Image v1.0.0
- 27. Dataproc Pyspark Job läuft nur auf einem Knoten
- 28. Dataproc Cluster mit Spark 1.6.X mit scala 2.11.X
- 29. wie pyspark job mit abhängigkeit von google dataproc cluster
- 30. Datei hinzufügen, um Treiber Classpath-Datei auf Dataproc