1

Ich möchte einen Dataflow-Job auslösen, wenn neue Dateien einem Storage-Bucket hinzugefügt werden, um neue Daten in einer BigQuery-Tabelle zu verarbeiten und hinzuzufügen. Ich sehe diese Cloud-Funktionen can be triggered durch Änderungen im Bucket, aber ich habe keine Möglichkeit gefunden, einen Dataflow-Job mit der gcloud node.js library zu starten.Auslösen eines Dataflow-Jobs, wenn neue Dateien zum Cloud Storage hinzugefügt werden

Gibt es eine Möglichkeit, dies mit Cloud-Funktionen zu tun, oder gibt es eine alternative Möglichkeit, das gewünschte Ergebnis zu erzielen (Einfügen neuer Daten in BigQuery, wenn Dateien einem Storage-Bucket hinzugefügt werden)?

+2

Es ist ein Beispiel einen Datenfluss in dieser Antwort beginnen zu lassen; Hilft das? http://stackoverflow.com/questions/35415868/launching-cloud-dataflow-from-cloud-functions –

+0

Danke, das ist in der Tat nützlich. Ich verwende das Dataflow-Python-SDK, aber das ist hoffentlich kein Problem. – numentar

+0

Bitte sehen Sie meine bearbeitete Antwort. – jkff

Antwort

2

Dies wird in Apache Beam ab 2.2 unterstützt. Siehe Watching for new files matching a filepattern in Apache Beam.

+0

Gibt es neue Funktionen in Google Cloud Datenfluss (Strahl), die diesen Prozess im Jahr 2017 einfacher machen? :) – jimmy

+1

Das erwähnte JIRA-Problem - oder genauer gesagt, es ist Unter-Thema BEAM-65, mit dem zugehörigen Design https://s.apache.org/splittable-do-fn, hat eine Menge Fortschritte gesehen und es ist mein Top Priorität jetzt. Diese spezielle Funktion ist noch nicht implementiert, aber das Splitable DoFn-Design selbst funktioniert in allen Läufern (derzeit arbeitet es in Direct Runner, arbeitet in einem Prototyp in Dataflow-Streaming und Flink-Läufern und arbeitet mit Apex und Spark weiter), wird es zu den ersten Anwendungsfällen gehören, die wir zusätzlich implementieren. – jkff

+0

Ich habe meine Antwort bearbeitet, um darauf hinzuweisen, dass sie implementiert wurde. – jkff

Verwandte Themen