Dataproc scheint als zustandslos/unveränderbar zu gelten. Ist diese Annahme richtig? Sollten wir gerade aufhören, wenn wir ein Hive/Presto Data Warehouse bereitstellen wollen?Welche Methode wird empfohlen, um einen DataProc-Cluster zu aktualisieren?
Wir haben Schwierigkeiten, eine Dokumentation zu finden, die vorschlägt, wie man sich um einen Cluster kümmern sollte, wenn er einmal bereitgestellt wurde?
- Wie werden Komponenten aktualisiert?
- Wie installiert man Werkzeuge (z. B. Farbton usw.), nachdem ein Cluster erstellt wurde?
- Wie sichere den Zugriff auf Daten + Dienste nach der Bereitstellung?
Die FAQs "Kann ich einen persistenten Cluster ausführen?" adressiere das auch nicht wirklich.
Das Internet schlägt vor, wir sollten nur einen neuen Cluster erstellen, wenn wir ein Problem haben. Als Entwickler bin ich ziemlich glücklich mit dem "Minimize State" -Argument, aber ich arbeite in der Unternehmenswelt wie Lösungen wie Hive (und seinen Metadatenspeicher), Hue und Zeppellin und möchte externe Tools wie Tableau zu einem Cluster verbinden.
Die Dokumentation sollte wirklich deutlich machen, welche Use-Cases dataproc (Batch, on-demand & kurzlebige Workloads) im Vergleich zu Dingen, für die es nicht wirklich entwickelt wurde (z. B. OLAP), ausgezeichnet ist?
Großartig schreiben Dennis, danke – K2J