2017-10-10 4 views
0

Wir haben einen Anwendungsfall, wo wir konfluente Kafka Verbindung zu Source-und Sink-Daten verwenden. Es ist wie ein typischer ETL.ETL mit konfluent kafka connect

Wir wollen verstehen, ob Kafka connect die Delta-Änderungen zwischen vorherigen Streams identifizieren kann. d.h. wir möchten nur die geänderten Daten an den Client senden und nicht die gesamte Tabelle oder Ansicht. Außerdem bevorzugen wir, keinen expliziten Code auszuführen, um Änderungen über eine Abfrage in der Quell- und Zieldatenbank zu identifizieren.

Gibt es einen bevorzugten Ansatz dazu?

Antwort

1

Wie gasparms sagte, verwenden Sie eine CDC t ool, um alle Änderungsereignisse aus Ihrer Datenbank zu ziehen. Sie können dann Kafka Streams oder KSQL zum Filtern, Beitreten und Aggregieren verwenden, wie es von Ihrem ETL benötigt wird.

Von welchem ​​Quellsystem möchten Sie Daten erhalten? Für Oracle (und mehrere andere Quellen) bündeln sie den Kafka Connect-Handler ab dem GoldenGate 12.3.1 als Teil des download. Sie haben auch andere Optionen wie DBVisit.

Für Open-Source-DBs dann passt Debezium definitiv die Rechnung, und es gibt eine nette tutorial here.

Verwandte Themen