Google Cloud Sdk von DataProc Cluster

Was ist der richtige Weg, um Python Google Cloud Apis wie Pub-Sub aus einem Google-Dataproc-Cluster zu verwenden/zu installieren? Zum Beispiel, wenn ich Zeppelin/Pyspark auf dem Cluster benutze und ich die Pub-Sub-API verwenden möchte, wie sollte ich es vorbereiten?Google Cloud Sdk von DataProc Cluster

Es ist mir unklar, was installiert ist und was nicht während der Standard-Cluster-Provisioning installiert ist und ob/wie ich versuchen sollte, Python-Bibliotheken für Google Cloud Apis zu installieren.

Ich realisiere zusätzlich, dass es Bereiche/Authentifizierung zu Setup geben kann. Um klar zu sein, ich kann die Apis lokal verwenden, aber ich bin mir nicht sicher, was der sauberste Weg ist, die Apis aus dem Cluster zugänglich zu machen, und ich möchte keine unnötigen Schritte ausführen.

Quelle

2016-03-26 ismisesisko

Im Allgemeinen ist im Moment, müssen Sie Ihre eigenen Client-Bibliotheken für die verschiedenen Google-APIs bringen, es sei denn die Google Cloud Storage connector oder BigQuery connector von Java oder über RDD Methoden in PySpark, der automatisch in die Java-Implementierungen delegieren.

Für die Authentifizierung sollten Sie einfach --scopes https://www.googleapis.com/auth/pubsub und/oder --scopes https://www.googleapis.com/auth/cloud-platform verwenden und das Dienstkonto auf den VMs des Dataproc-Clusters kann sich für die Verwendung von PubSub über den standardmäßig installierten Anmeldeinformationenfluss authentifizieren.

Quelle

2016-03-31 17:34:19

Google Cloud Sdk von DataProc Cluster

Antwort

Verwandte Themen