Sowohl DoFn
und PTransform
ist ein Mittel zum Definieren der Operation für PCollection
. Woher wissen wir, was wann zu verwenden ist?Apache Beam: DoFn vs PTransform
1
A
Antwort
2
Ein einfacher Weg, um es zu verstehen ist analog zu map(f)
für Listen:
- Die Funktion höherer Ordnung
map
wendet eine Funktion auf jedes Element einer Liste eine neue Liste der Ergebnisse zurück. Sie könnten es ein Rechenmuster nennen. - Die Funktion
f
ist die Logik, die auf jedes Element angewendet wird.
Jetzt, Schalten über Beam-Spezifika zu reden, ich glaube, Sie fragen nach ParDo.of(fn)
, die eine PTransform
ist.
PTransform
A ist eine Operation, die als Eingang undPCollections
AusbeutenPCollections
als Ausgang nimmt. Beam hat nur fünf primitive Typen vonPTransform
, die peinlich parallele Rechenmuster einkapseln.ParDo
ist das Berechnungsmuster der Berechnung pro Element. Es hat einige Variationen, aber Sie müssen sich darüber keine Gedanken machen.- Die
DoFn
, hier habe ich esfn
genannt, ist die Logik, die auf jedes Element angewendet wird.
Es ist auch die Tatsache zu denken, kann dazu beitragen, dass Sie ein DoFn
schreiben zu sagen, was für jedes Element zu tun, und die Beam-Läufer stellen die ParDo
Ihre Logik anzuwenden.
Verwandte Themen
- 1. Apache Beam: PTransform vs PValue
- 2. So erstellen Sie lesen Transformation mit ParDo und DoFn in Apache Beam
- 3. Apache Beam: FlatMap vs Karte?
- 4. Quelle Vs PTransform
- 5. ParDo vs FlatMap in Apache Beam?
- 6. google-cloud-dataflow vs apache-beam
- 7. Apache Beam Quelle erhalten Dateiname
- 8. Wie erhalten Sie PipelineOptions in Composite PTransform in Beam 2.0?
- 9. DymanicDestinations in Apache Beam
- 10. Apache Beam Kombinieren Funktion nichts zu tun
- 11. HTTP-Client in DoFn
- 12. Apache Beam Kombinieren Werte gruppiert
- 13. Apache Beam/Flink ExceptionInChainedStubException
- 14. Apache Beam -BigQueryIO mit Apex-Runner
- 15. Apache Beam PubSub Reader-Ausnahmen
- 16. Apache Beam In-Memory-Speicher
- 17. Apache Beam: Registrar für GS
- 18. Apache Beam Programmausführung ohne Maven
- 19. Erklären Apache Beam Python-Syntax
- 20. Pass TupleTag zu DoFn Methode
- 21. Apache Beam - Sliding Windows Ausgabe mehrerer Fenster
- 22. Apache Beam-Vorlage: Runtime Context Fehler
- 23. Apache Beam: Batch-Pipeline mit unbegrenzter Quelle
- 24. Verwenden Sie Apache Beam als Abhängigkeit
- 25. Apache Beam: Programmatisch partitionierte Tabellen erstellen
- 26. Wählen Sie Elemente in processElement() - Apache Beam
- 27. Python-Unterstützung für SparkRunner in Apache Beam
- 28. Wert aus ValueProvider in Apache Beam extrahieren
- 29. Tuple-basierte Fenster in Apache Beam
- 30. Apache Beam TextIO glob erhalten ursprünglichen Dateinamen