2017-06-16 7 views
0

Es ist wirklich verwirrend, dass jedes Google-Dokument für den Datenfluss sagt, dass es jetzt auf Apache Beam basiert und mich zur Beam-Website leitet. Auch wenn ich nach github-Projekt suchte, würde ich sehen, dass das google dataflow-Projekt leer ist und gerade alles zum Apache beam repo geht. Sag jetzt, ich muss eine Pipeline erstellen, von dem, was ich von Apache Beam gelesen habe, würde ich tun: from apache_beam.options.pipeline_options Allerdings, wenn ich mit google-cloud-dataflow gehe, werde ich Fehler haben: no module named 'options', stellt sich heraus, ich sollte from apache_beam.utils.pipeline_options verwenden. Also, sieht aus wie google-cloud-dataflow mit einer älteren Beam-Version und wird veraltet sein?google-cloud-dataflow vs apache-beam

Welche sollte ich wählen, um meine Dataflow-Pipeline zu entwickeln?

Antwort

1

Antwort in Google Dataflow Release Notes

The Cloud Dataflow SDK distribution contains a subset of the Apache Beam ecosystem. This subset includes the necessary components to define your pipeline and execute it locally and on the Cloud Dataflow service, such as:

  • The core SDK
  • DirectRunner and DataflowRunner
  • I/O components for other Google Cloud Platform services

The Cloud Dataflow SDK distribution does not include other Beam components, such as:

  • Runners for other distributed processing engines

  • I/O components for non-Cloud Platform services

Version 2.0.0 is based on a subset of Apache Beam 2.0.0

0

finden Ended up Ja, ich vor kurzem dieses Problem gehabt haben, wenn sie außerhalb von GCP testen. Diese link hilft zu bestimmen, was Sie brauchen, wenn es um Apache-Beam geht. Wenn Sie das unten genannte ausführen, werden Sie keine GCP-Komponenten haben.

$ pip install apache-beam

Wenn Sie dies jedoch ausgeführt werden Sie alle Cloud-Komponenten haben.

$ pip install apache-beam[gcp]

Als Nebenwirkung, verwende ich die Anaconda-Distribution für fast alle meine Python-Codierung und Pakete Management. Ab dem 20.07.17 können Sie die Anaconda Repos nicht mehr verwenden, um die erforderlichen GCP-Komponenten zu installieren. Ich hoffe, mit den Continuum-Leuten zu arbeiten, um dies nicht nur für Apache Beam, sondern auch für Tensorflow zu lösen.

Verwandte Themen