Auslösen eines Dataflow-Jobs, wenn neue Dateien zum Cloud Storage hinzugefügt werden

Ich möchte einen Dataflow-Job auslösen, wenn neue Dateien einem Storage-Bucket hinzugefügt werden, um neue Daten in einer BigQuery-Tabelle zu verarbeiten und hinzuzufügen. Ich sehe diese Cloud-Funktionen can be triggered durch Änderungen im Bucket, aber ich habe keine Möglichkeit gefunden, einen Dataflow-Job mit der gcloud node.js library zu starten.Auslösen eines Dataflow-Jobs, wenn neue Dateien zum Cloud Storage hinzugefügt werden

Gibt es eine Möglichkeit, dies mit Cloud-Funktionen zu tun, oder gibt es eine alternative Möglichkeit, das gewünschte Ergebnis zu erzielen (Einfügen neuer Daten in BigQuery, wenn Dateien einem Storage-Bucket hinzugefügt werden)?

Quelle

2016-04-01 numentar

Es ist ein Beispiel einen Datenfluss in dieser Antwort beginnen zu lassen; Hilft das? http://stackoverflow.com/questions/35415868/launching-cloud-dataflow-from-cloud-functions –

Danke, das ist in der Tat nützlich. Ich verwende das Dataflow-Python-SDK, aber das ist hoffentlich kein Problem. – numentar

Bitte sehen Sie meine bearbeitete Antwort. – jkff

Dies wird in Apache Beam ab 2.2 unterstützt. Siehe Watching for new files matching a filepattern in Apache Beam.

Quelle

2016-04-01 20:31:50 jkff

Gibt es neue Funktionen in Google Cloud Datenfluss (Strahl), die diesen Prozess im Jahr 2017 einfacher machen? :) – jimmy

Das erwähnte JIRA-Problem - oder genauer gesagt, es ist Unter-Thema BEAM-65, mit dem zugehörigen Design https://s.apache.org/splittable-do-fn, hat eine Menge Fortschritte gesehen und es ist mein Top Priorität jetzt. Diese spezielle Funktion ist noch nicht implementiert, aber das Splitable DoFn-Design selbst funktioniert in allen Läufern (derzeit arbeitet es in Direct Runner, arbeitet in einem Prototyp in Dataflow-Streaming und Flink-Läufern und arbeitet mit Apex und Spark weiter), wird es zu den ersten Anwendungsfällen gehören, die wir zusätzlich implementieren. – jkff

Ich habe meine Antwort bearbeitet, um darauf hinzuweisen, dass sie implementiert wurde. – jkff

Vielleicht würde dieser Beitrag helfen, Dataflow-Pipelines von App Engine oder Cloud-Funktionen auszulösen?

https://cloud.google.com/blog/big-data/2016/04/scheduling-dataflow-pipelines-using-app-engine-cron-service-or-cloud-functions

Quelle

2016-04-16 18:41:07

Auslösen eines Dataflow-Jobs, wenn neue Dateien zum Cloud Storage hinzugefügt werden

Antwort

Verwandte Themen