ich Probleme, bin ein dataflowRunner Job zu schaffen, die eine Pub/Sub-Quelle zu einem großen Abfrage Spüle verbindet diese beiden durch Einstecken:Fehler Streaming von pub/sub in große Abfrage Python
apache_beam.io.gcp.pubsub.PubSubSource
apache_beam.io.gcp.bigquery.BigQuerySink
in Linien 59 und 74 respektive im Strahl/sdks/python/apache_beam/examples/streaming_wordcount.py (https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/streaming_wordcount.py) Beispiel auf github. Nach dem Entfernen der Zeilen 61-70 und dem Angeben der korrekten pub/sub- und bigquery-Argumente wird das Skript fehlerfrei ausgeführt, ohne die Pipeline zu erstellen.
sidennote: Das Skript erwähnt Streaming-Pipeline-Unterstützung ist nicht verfügbar für die Verwendung in Python. Doch auf den Balken docs es apache_beam.io.gcp.pubsub.PubSubSource erwähnt ist nur für Streaming (1. Satz unter dem „apache_beam.io.gcp.pubsub Modul“ heading: https://beam.apache.org/documentation/sdks/pydoc/2.0.0/apache_beam.io.gcp.html#module-apache_beam.io.gcp.pubsub)
kann es kaum erwarten, wenn es funktioniert :)! es wird eine tolle Funktion sein –
@FilipeHoffa, ist es möglich, Batch-Prozess in große Abfrage in Python? – Evan
@Evan, Sie können sicherlich Batch-Nachrichten von Pub/Sub in BigQuery mit Python verarbeiten; siehe Beispiel, das Google hier zur Verfügung stellt - https://github.com/GoogleCloudPlatform/kubernetes-bigquery-python/blob/master/pubsub/pubsub-pipe-image/pubsub-to-bigquery.py – andre622